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Vorwort 



Dieses Lehrbuch wurde fur „Studierende“ geschrieben, welche das Fach „Psy- 
chologische Diagnostik und Intervention 41 kennenlernen wollen. 

Darum vermittelt das Buch Kenntnisse und Techniken, mit denen jemand ver- 
traut sein sollte, wenn er in der Praxis „Psychologie anwenden 44 will. Das 
Buch kann nur ein Fundament legen - der Studierende muB diese Grundlage 
erweitem; das Nachwort bietet dafiir Ratschlage an. 

Die Gliederung des Buches wurde konzipiert von der „diagnostischen Situa- 
tion 44 , also von der Anwendung her. In Diagnostik wie in Intervention muB 
der „Anwender“ Kenntnisse abmfen, die sich beziehen auf Regeln und Ge- 
setze der Datensammlung und Datenintegration, auf Kenntnisse von Einzel- 
verfahren, die er nur handhaben kann, wenn er die Konzepte versteht, nach 
denen sie entworfen wurden. 

Die Kenntnisse von Diagnostik und Intervention stellen wir uns als gestaffelt 
vor: 

Darum umreiBt das Buch zuerst Herkunft, Eigenart und Aufgabenfelder 
der Anwendungsmethodologie Diagnostik und Intervention, charakterisiert 
ihren sozialen, finalen und ethischen Kontext (Teil 1). 

- Sodann behandelt es in drei Durchgangen groBere Lehreinheiten: Grund- 
kenntnisse, spezielle Einzelverfahren und spezielle Einzelfragen (Teil II 
bis IV). 

Schliefilich stellen wir Beispiele integrativer multimodaler Diagnostik und 
Intervention vor (Teil V). 

Die gesamte Darstellung ist starker an Individualdiagnostik als an Reihenun- 
tersuchungen oder Forschungsaufgaben orientiert. 

Dank schulde ich vielen Kollegen. 

Herm Dr. D. Vennen, lange Jahre Mitarbeiter in unserer Abteilung, bin ich 
zu Dank verpflichtet fur seine ungezahlten Korrektur- und Erganzungsvor- 
schlage; er vor allem hat immer wieder darauf gedmngen, in den laufenden 
Text Beispiele aus der Praxis einzufiigen. 

Herm Professor Dr. R. Mausfeld danke ich fur wiederholte Diskussionen 
liber das Rasch-Modell, Herrn Dr. H. Stumpf fur wiederholte Korrekturen 
des Kapitels liber das Rasch-Modell. 

Ich war froh, daB ich Frau Dr. Pia Gottschalk und Frau Diplompsychologin 
Erika Haese die Transkription des ersten Manuskriptes anvertrauen konnte: 
Sie haben diese Aufgabe mit Sorgfalt gelost. 
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Vorwort 



Bei Frau Dr. Marion Bertgen-Giesen und Frau Diplompsychologin Mech- 
tild Weidmann bedanke ich mich fur ihre Textkorrekturen und ihre um- 
fangreichen Literatur-Recherchen. 

- Lebhaft danke ich auch Frau PD Dr. Cornelia von Hagen und ihrem Gatten, 
Herm Diplompsychologen H. von Hagen, fur ihre Informationsbeitrage 
und fur mehrmalige Textkorrekturen. 

Herr Dr. W. Jochmann von der Kienbaum Personalberatung hat zu jedem 
Abschnitt iiber „Bewerberbeurteilung“ in Kapitel 23 Anregungen gegeben, 
insbesondere zu den Themen „Riickmeldung, Anforderungsfacetten, Kan- 
didatenklassifizierung, Einzel-Assessment, Selbstprasentation“. 



Bei der Vorbereitung der zweiten Auflage haben mich wiederum viele Kolle- 

ginnen und Kollegen unterstutzt. 

Frau Dr. Ingrid Tismer-Puschner hat fiir viele Kapitel Korrekturen vorge- 
schlagen. Vor allem hat sie - dank einer vorziiglichen Kenntnis der Fach- 
literatur - ungezahlte Erganzungen und Erweiterungen angeregt, sie hat 
selber Texte beschafft und wichtige Stellen markiert: Sie hat mehr getan, 
als ihre Zeit ihr „eigentlich“ erlaubt hatte. 

- Bei Herrn Dr. E. Fay vom Institut fiir Test- und Begabungsforschung in 

Bad Godesberg bedanke ich mich fiir unermiidliche Zusammenarbeit: Er 
hat Widerspruche in meiner Darstellung aufgedeckt, er hat Korrekturen 
vorgeschlagen, er hat Anregungen gegeben, er hat auf Literatur verwiesen 
- ungezahlte Satze und Abschnitte tragen seine Handschrift. 

Herr PD Dr. J. Funke hat mit mir die Problematik diskutiert, die sich ergibt 
bei Anwendung der klassischen Testtheorie auf Daten, die der Verhaltens- 
beobachtung oder einem Gesprach entstammen. Die entsprechenden Ka- 
pitel iiber Beobachtung und Interview hat er gegengelesen, fiir unzulang- 
liche Angaben und Formulierungen hat er Korrekturen vorgeschlagen. 

■ Frau Diplompsychologin Eftychia Sidiropoulou hat es iibemommen, fin- 
das Kapitel 18, „Computergestiitzte Diagnostic, die Literatur zu suchen, 
sehr viele Beitrage zu sichten und die Ergebnisse in einer wohlgegliederten 
und umfangreichen Ubersicht zu prasentieren. Dariiber hinaus hat sie viele 
andere Kapitel kritisch gelesen und korrigiert. 

Herr Diplompsychologe Th. Fuchs hat in Kapitel 20 ein Beispiel fiir einen 
speziellen Fall von Begutachtung gestaltet; das Material beruht auf einem 
echten Fall aus seiner Praxis, doch hat er die personenbezogenen Daten 
so verandert, daB sich die Probandin nicht identifizieren laBt. 

- Frau Diplompsychologin Andrea Obeldobel hat Literatur recherchiert und 
zusammengefaBt, sie hat so gut wie alle Kapitel gelesen und Fehler iden- 
tifiziert: Sie miiBte das Buch am griindlichsten kennen. Besonderer Dank 
gebiihrt ihr deswegen, weil sie diese Arbeit parallel zur Erstellung ihrer 
Diplomarbeit geleistet hat. 

■ Frau Katja Waligora hat, wie Frau Obeldobel, unermiidlich geholfen, Li- 
teratur zu beschaffen, sie war immer bereit, die gleichen Kapitel wieder 
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und wieder zu lesen und die Fehler zu finden, die ich -bei jeder Korrektur 

■ wieder und wieder miteingefiigt hatte. 

Mein Sohn Bernhard hat mir gezeigt, wie ich die Texte auf dem PC ge- 
stalten kann. Er hat mich in WordPerfect 6.1 fur Windows eingefiihrt und 
Darstellungsprobleme gelost, vor denen sein Vater kapitulierte. 

Meine Frau Marlene hat die Entstehung des Werkes mit Geduld und Ironie 
begleitet. So hat sie mir geraten, Pausen einzulegen, um das Buch fertig- 
zustellen. AuBerdem hat sie immer wieder das weitere Vorgehen mitgeplant 

■ auf Kosten ihrer ffeien Zeit. 

Nennen mochte ich auch die Mitarbeiter des Verlages fur Psychologie. Herr 
Dr. H. Lundberg hat die Abfassung des Lehrbuches angeregt. Mit Herm B. 
Otto hat er die ersten Konzeptionen gesichtet und mich zur Weiterarbeit er- 
mutigt. Er hat das Werk dann seinem Nachfolger, Herm Dr. M. Vogtmeier, 
empfohlen. Jedem von ihnen danke ich herzlich. Wenn das Buch einen Weg 
zu „seinem Leser“ findet, ist das auch ihr Verdienst. 

Bei Frau Susanne Schurr und bei Herm Hans-Joachim Bemert bedanke ich 
mich sehr herzlich: Die „Dmcklegung“ und die Korrektur haben sie vorbild- 
lich betreut. Sie haben nicht nur „Auftrage“ ausgefuhrt, sondem den Text und 
sein „Gesicht“ mitgestaltet. Wenn die Diagnostik „ansehnlich“ auftritt, dann 
auch, weil beide Mitgestalter ihr mit viel Geduld ein Ansehen verliehen haben. 
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Teil I 



Vorfragen: 
Gegenstandsbereich 
psychologischer Diagnostik 
und 

psychologischer Intervention 

In Teil I versuchen wir, den Gegenstandsbereich von Diagnostik und Inter- 
vention zu umschreiben und zu gliedem. Wir besprechen 

- die Bedeutung der Begriffe psychologische Diagnostik 

und psychologische Intervention (Kap. 1), 

■ unterschiedliche Modellvorstellungen von Diagnostik 

und Intervention (Kap. 2), 

- die Gliederung der Stoffdarbietung in diesem Buche (Kap. 3). 




1. Kapitel 



Zur Bestimmung 
von Diagnostik und Intervention 

Diagnostik und Intervention sind einander zugeordnet. Diagnostik soil zur In- 
tervention fiihren, Intervention setzt Diagnostik voraus. Um diesen Zusam- 
menhang zu verdeutlichen, erlautem wir 

■ Abgrenzungen von Diagnostik und Intervention (1.1), 

- Beispiele zur Entstehungsgeschichte (1.2), 

finale, soziale, ethisch-juristische Struktur von Diagnostik 

und Intervention (1.3), 

- Konzepte einer Normativen Diagnostik (1.4). 

Das erste Kapitel schlieBt mit einer Zusammenfassung (1.5) und der Vorgabe 
einiger Kontrollfragen (1.6). 



1.1 Diagnostik und Intervention: Abgrenzungen (Definitionen) 

Das Wort Diagnostik geht zuriick auf das griechische Verb ,diagignoskein’ , 
das unterschiedliche Aspekte eines kognitiven Vorganges bezeichnet, vom Er- 
kennen bis zum BeschlieBen. Das Verb bedeutet (1) genau kennenlemen, (2) 
entscheiden und (3) beschlieBen oder sich entscheiden (Kaegi, 1904, 184). 

Diese drei Grundbedeutungen lassen vielfaltige Assoziationen an Leistungen 
anklingen, die vom Psychologen als Diagnostiker erwartet werden: etwa, daB 
er menschliches Verhaltens ,griindlich kcnncnlcrnc 4 , um bei Storungen zum 
Zwecke einer Abhilfe ,Entscheidungen‘ oder gar ,Beschliisse‘ anzubieten. 

Doch taugen solche etymologischen Ableitungen und ihre Assoziationen zu 
nicht mehr als zu Gedankenspielen. Denn die Begriffe , Diagnose 4 und Dia- 
gnostik 4 haben eine Geschichte durchlaufen, wahrend der sich ihre Bedeutung 
gewandelt hat. 

Die Sachbedeutung hat sich verengt im Rahmen einer Fachsprache der Me- 
dizin: Diagnose und Diagnostik bezeichnen die Lehre und die Fertigkeit, 
Krankheiten zu erkennen und sie Ursachen oder Ursachensyndromen zuzu- 
ordnen. 
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In der Psychologie bezeichnet Diagnostik - befreit von dem Bezug zur Me- 
dizin - die Lehre von den Methoden und Verfahren der sachgemaBen Durch- 
fiihrung einer Diagnose. Eine , Diagnose 4 liefert Aussagen dariiber, welche 
Sachverhalte (in der Vergangenheit) fur ein Verhalten (in der Gegenwart) ver- 
antwortlich sind (Dorsch, 1994, 156; Schroder, 1976, 3-5). , Diagnostik 4 
schlieBt heute auch Aussagen im Sinne einer Prognose ein. 

Den Bedeutungshof mogen drei ,Definitionen‘ veranschaulichen: 

- Psychologische Diagnostik ist das systematische Sammeln und Aufbereiten 
von Informationen mit dem Ziel, Entscheidungen und daraus resultierende 
Handlungen zu begriinden, zu kontrollieren und zu optimieren. Solche Ent- 
scheidungen und Handlungen basieren auf einem komplexen Informations- 
verarbeitungsprozefi. In diesem Prozefi wird auf Regeln, Anleitungen, Al- 
gorithmen usw. zurUckgegriffen. Man gewinnt damit psychologisch rele- 
vante Charakteristika von Merkmalstrdgem und integriert gegebene Daten 
zu einem Urteil (Diagnose, Prognose). Als Merkmalstrager gelten Einzel- 
personen, Personengruppen, Institutionen, Situationen, Gegensttinde” (J ti- 
ger R. S. & Petermann, 1995, 11). 

Psychodiagnostik ist eine Methodenlehre im Dienste der Angewandten Psy- 
chologie. Soweit Menschen die Merkmalstrtiger sind, besteht ihre Aufgabe 
darin, interindividuelle Unterschiede im Verhalten und Erleben sowie in- 
traindividuelle Merkmale und Vertinderungen einschliefilich Hirer jeweils 
relevanten Bedingungen so zu erfassen, daft hinltinglich prtizise Vorhersa- 
gen kunftigen Verhaltens und Erlebens sowie deren evtl. Vertinderungen in 
definierten Situationen moglich werden“ (Amelang & Zielinski, 1994, 3). 

Psychodiagnostik Itifit sich definieren als ein Vorgehen, in dem menschliche 
Verhaltensdaten erhoben und auf der Grundlage von theoretisch-psycho- 
logischen Annahmen so interpretiert werden, dafi sie eine Erklarung fur 
vergangene und eine Vorraussage fur zukunftige Verhaltensweisen erlau- 
ben. Aufierdem sollen dem Diagnostizierten auf der Grundlage dieser In- 
terpretationen geeignete Konsequenzen oder Behandlungen als Vorschlag 
unterbreitet oder sogar fur ihn herbeigefuhrt werden” (Ringelband & Birk- 
han, 1995, 796). 

Uber einzelne Elemente der beiden ,Definitionen mogen Experten unter- 
schiedlicher Meinung sein und sich deswegen auch streiten - insgesamt ergibt 
sich: Psychodiagnostik ist eine Methodologie, deren Aufgabe darin liegt, psy- 
chologisches Wissen und psychologische Techniken bereitzustellen, die dazu 
beitragen, (in Einzelfallen) praktische Probleme zu losen (Westmeyer, 1993, 
508). 

Wie hebt sich von dieser Abgrenzung das Konzept der Intervention ab? 
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Das Wort Intervention leitet sich von dem lateinischen Verb jntervenire ab, 
das soviel bedeutet wie: (1) in die Quere kommen, dazwischentreten, (2) un- 
terbrechen, storen, hindem (Blase & Reeb, 1909, 434). 

Im Angelsachsischen enthalt das entsprechende Wort .intervention 4 eine ahn- 
liche Bedeutung: „interferring or becoming involved, e. g. to prevent some- 
thing happening 44 (Hornby, 1989, 658). 

In beiden Fallen ergibt sich eine Grundbedeutung, die besagt, daB es um einen 
Eingriff geht, der einen ProzeBverlauf andem und (dabei gegebenenfalls) Sto- 
rungen beseitigen soil. 

Dieser Gmndbedeutung kommt es sehr nahe, wenn Intervention verstanden 
wird als ein „psychologisches Eingreifen, um die Entstehung oder das An- 
dauem psychischer Storungen zu verhindem und diese letztlich abzubauen 44 
(Humboldt-Psychologie-Lexikon, 1990, 173). Damit wird Intervention zwar 
noch nicht gleichgesetzt mit Psychotherapie, aber doch in ihr Umfeld plaziert. 

MuB indes das Konzept so eng gefaBt werden? LaBt sich das Konzept nicht 
auch weiter fassen, namlich so, daB auch andere MaBnahmen als interventiv 
betrachtet werden: MaBnahmen, die einen psychischen Zustand andem sollen? 

Der Oberbegriff bezeichnet dann eine Verhaltensanderung. Das Konzept der 
Intervention nahert sich dem der Verhaltensmodifikation (Kaminski, 1970), es 
umfaBt Anderungswissen ebenso wie die Vertrautheit mit Anderungstechniken. 

Intervention bezeichnet in der erweiterten Fassung ein psychologisches Han- 
deln, das 

eine Verhaltenanderung anzielt, 

- diese Veranderung systematisch kontrolliert und 

- zur Herstellung oder Verbessemng des seelischen Wohlbefindens fiihrt. 

Amelang und Zielinski definieren Intervention wie folgt (1994, 263): 

- Interventionen sind „Mafinahmen, die aus den verschiedensten Grunden 

eingeleitet werden. Sie setzen an diagnostischen Feststellungen an, mit 
dem Ziel, Veranderungen auf organisatorischer oder individueller Ebene 
herbeizujuhren. Im angloamerikanischen Raum ist dajur der Terminus 
, treatment 1 , also Behandlung, gebrauchlich. Die intendierten Ejfekte sind 
erwartungsgemd.fi dann besonders positiv, wenn die Passung zwischen Dia- 
gnose und Intervention in optimaler Weise ausfallt . “ 

Kasten 1-1 zahlt drei Beispiele fur Intervention auf. 
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Kasten 1-1 : 

Beispiele fiir Intervention aus unterschiedlichen psychologischen Disziplinen 

In der Klinischen Psychologie kann eine Beratung hinfuhren zu einer Therapie oder zu 
Schritten einer Gesundheitspravention. 

In der Arbeits- und Organisationspsychologie kann ein Trainingsprogramm dazu 
beitragen, innerhalb eines Betriebes die Effizienz eines Einzelnen oder eines Teams zu 
steigern. 

In der Werbepsychologie kann eine Befragung dazu dienen, fiir ein bestimmtes Produkt 
ein Image zu entu’ickeln, das potentielle Kaufer anziehen soil. 



Resiimee: Diagnostik und Intervention lassen sich verstehen als Abschnitte 
desselben psychologischen Prozesses, eines Ablaufs, in dem Intervention aus 
der Diagnostik hervorgeht. Diagnostik bezeichnet eher den erkundenden, In- 
tervention eher den modifikatorischen Abschnitt dieser einheitlichen Hand- 
lungssequenz. 



1.2 Diagnostik und Intervention: Zur Entstehungsgeschichte 

Die Lehre von Diagnostik und Intervention ist weder ein Kind allein der Praxis 
noch allein der Theorie, sondem ein ,Mischling‘ aus beidem, aber sie zielt 
darauf ab, Kenntnisse verschiedener Teildisziplinen der Psychologie fiir die 
Praxis des Lebens nutzbar zu machen. 

Wir bringen einige Hinweise zur Entstehungs-Geschichte. 

Aufierhcilb der Psychologie wurden Dienstleistungen umschrieben, welche die 
Psychologie erbringen konnte. Innerhalb der Psychologie wurden Theorien 
und Modelle entwickelt. die dazu anregten, theoretische Vorstellungen in kon- 
kreten Anwendungen auf die Probe zu stellen (Amelang & Zielinski, 1994, 
3-6; J tiger, R. S. & Petermann, 1995, 17-48; Perrez & Baumann, 1991, 28; 
Thomae, 1977, 203-277; Wottawa & Hossiep, 1987, 5). 

In jedem Beispiel verschranken sich Diagnostik und Intervention; ausdriicklich 
benannt sei die Verbindung nur in zwei Fallen. 

AuBerhalb der Psychologie wurden Dienstleistungen angefordert. Beispiels- 
weise kamen Anfragen aus dem Gerichtssaal, aus dem padagogischen Feld, 
aus den Personalbiiros der Wirtschaft. Psychologen versuchten, solchen Er- 
wartungen und Anfordemngen zu entsprechen. GroBe Namen sind zu nennen: 
Als einer der ersten Psychologen stellte William Stem sein Fachwissen 
zur Verfiigung, um die Aussagefahigkeit und Aussagenehrlichkeit von Ge- 
richtszeugen zu priifen (Stem, 1904, 1926). Anwendungsbeispiel: Ein Psy- 
chologe habe die ,Zurechnungsfahigkeit‘ eines Angeklagten festgestellt 
(Diagnostik). Dieses Urteil des Psychologen kann die Entscheidung der 
Richter beeinflussen und in die Urteilsbegrundung eingehen (Intervention). 
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Im Auftrag des franzosischen Unterrichtsministeriums haben Binet und Si- 
mon den ,Stufenleitertest der Intelligenz 1 (,,1'echelle metrique de l'intelli- 
gence“) entworfen und erprobt, um lembehinderte Kinder zuverlassig von 
normalbegabten zu unterscheiden (Binet & Simon, 1905). 

— Im Auftrag der amerikanischen Armee haben Woodworth und seine Mit- 
arbeiter den ,Personlichen Datcnbogcrf (Personal Data Sheet) entwickelt. 
Unter den Mannem, die sich 1917 um Aufnahme in das amerikanische 
Expeditionskorps filr Europa bewarben, sollten der Datenbogen ungeeig- 
nete (neurotische) Anwarter identifizieren (Woodworth, 1919). 

— Im Auftrag der Kultusminister der Lander der Bundesrepublik Deutschland 
hat ein Psychologen-Team den ,Test filr medizinische Studiengange 1 
(TMS) konzipiert und erprobt. damit zusatzlich zur Abiturnote ein Krite- 
rium bei der Vergabe medizinischer Studienplatze herangezogen werden 
kann (Fay, 1982; Trost & Mitarbeiter, 1995). 

Innerhalb der Psychologie wurden theoretische Annahmen und Modelle ent- 
wickelt, deren Anwendung in der Praxis sich anbot: 

- Psychologen, die Theorien iiber die Intelligenz entwickelten, haben An- 

wendungsmodelle entworfen und in MeBverfahren erprobt. Diesen Bemii- 
hungen entsprangen viele Intelligenztests (Guilford & Hoepfner, 197, 1; 
Horn, 1983; Spearman, 1938; Thurstone, 1938). 

Aus personlichkeitstheoretischen Ansatzen hat eine Vielzahl von Autoren 
eine Vielzahl von Fragebogen entworfen, die in der Praxis hilfreiche Dien- 
ste leisten (Beckmann, Brahler & Richter, 1990; Cattell et al., 1970; Ey- 
senck, 1953; Guilford. 1959). 

- Aus lemtheoretischen Konzepten, vor allem dem Konzept des operanten 

Konditionierens, hat Skinner das Prinzip der „Unterrichtsmaschinen“, der 
programmierten Bucher, auch des programmierten Unterrichts entwickelt 
(Skinner, 1948, 1953). 

Interaktionistisch orientierte Theoretiker haben sogenannte ,Situations-Re- 
aktions-Inventare’ enwickelt, um Verhalten in seinen situativen Facetten 
zu erfassen (Petermann F. & U., 1980). Anwendungsbeispiel: Bei einem 
Jungen wird ermittelt, in welchen Situationen er auffallig aggressiv reagiert 
(Diagnostik). Aufgrund des Testwertes wird dem Probanden zu einem Ver- 
haltenstraining geraten, das seine Aggressivitat mindern soil (Intervention). 

Resiimee: Die Hinweise aus der Entstehungs-Geschichte sollten veranschau- 
lichen, daB Diagnostik und Intervention weder allein aus der psychologischen 
Praxis noch allein aus der psychologischen Theorie hervorgegangen sind. Ihre 
Charakteristik besteht darin, verschiedene Teildisziplinen der Psychologie zu 
nutzen, um konkrete Lebenfragen losen zu helfen. 
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1.3 Finale, soziale, ethisch-juristische Struktur 
von Diagnostik und Intervention 

Eine diagnostisch-interventive Handlungssequenz schlieBt Momente ein, die 
finaler, sozialer, ethisch-juristischer Natur sind. Diese Qualitaten werden der 
Diagnostik und der Intervention nicht erst im nachhinein attribuiert. 

Finale Struktur: Wenn Diagnostik ihre Hilfe anbietet, um Lebensfragen zu 
zu klaren, und Intervention ein Programm skizziert, um Probleme zu bewal- 
tigen, dann sind finale Strukturen und Entscheidungsmomente mitenthalten. 
Ermittelt wird ja nicht nur, was ,geschehen‘ ist und wie die Bedingungen des 
,Geschehens‘ aussehen (Kausal- und Bedingungsanalyse), bestimmt wird auch 
ein Ziel, auf das hin etwas geschehen soil (Handlungsvorschlage) (Jager, R. S., 
1985, 227; 1986, 13; Wottawa & Hossiep, 1987, 1, 18). 

Woher aber kommt ,Finalitat‘ in die Diagnostik? Wenn sich Diagnostik be- 
griindet als Teilgebiet der Psychologie, dann muB die ,Grundlage‘ ihrerseits 
, finale 1 Aussagen enthalten. Dazu nur zwei Hinweise: 

- Motivationspsychologie schlieBt Zielorientierung ein. Motivationale Pro- 

zesse haben Zielcharakter. Wer also in der Diagnostik Motivationsprozesse 
aufdeckt, bringt auch Ziele zur Sprache. 

- Personlichkeitspsychologen legen finale Definitionen vor, altere ebenso 

wie jiingere. Altere, etwa Stem und Allport, bestimmen die , Person 4 als 
,Zielursache‘ (causa finalis). Jiingere, etwa Rotter und Mischel definieren 
die .Pcrsdnlichkcit' durch ,Erwartungen‘, die sich auf zukiinftige Verstar- 
kungen richten. 

In sich selber schlieBt der diagnostisch-interventive ProzeB finale Momente 
ein: Ein Klient oder Proband trage ein Anliegen vor, er suche die Hilfe des 
Psychologen, um die ,richtige‘ Bemfswahl zu treffen oder um eine ,Verhal- 
tensstorung 4 zu korrigieren. In solchen Fallen wird , etwas 4 , was noch nicht 
existiert (,Berufsbild 4 oder ,normales‘ Verhalten) so antizipiert, daB es nur im 
antizipierenden Subjekt existiert und als intentionales Geschehen gegenwarti- 
ges Verhalten auf erwiinschte zukiinftige ,Zustande‘ ausrichtet. 

Soziale Struktur: Zu den ftnalen kommen soziale Elemente hinzu. Diagno- 
stisch-interventive Aufgaben beginnen, wenn sich ein Proband einer Frage 
gegeniibersieht, fur die er den Rat des Psychologen sucht. 

Diese , Frage 4 wird formuliert, zuerst in der Sprache des Betroffenen, dann in 
der Sprache des Diagnostikers. Dieser sprachliche Vorgang setzt Probanden 
und Diagnostiker in einen sozialen Kontext. Richtiger: In diesem Vorgang 
manifestiert sich die diagnostische Frage als eingebettet in einen sozialen Kon- 
text, sowohl von der Seite des Probanden wie von der des Psychologen her. 

Damit enthiillen sich Diagnostik und Intervention schon in ihrem Ansatz als 
partnerschaftliche Aufgabe. Nicht erst der Psychologe ,erhebt 4 die Interaktion 
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zu einem sozialen Phanomen, von Anfang an ist das diagnostisch-interventive 
Handeln in einen partnerschaftlichen Kontext gesetzt. 

Ethisch-juristische Struktur: In dieser finalen und sozialen ,Bauform‘ von 
Diagnostik und Intervention sind ethisch-juristische Imperative enthalten. 

(Amelang & Zielinski, 1994, 19-20; Booth, 1995, 138-147; Hartmann, 
1984; Haubl, 1984; Jiiger, R. S„ 1986, 41-63; Klein, 1982; Petermann, 
1995, 147-154; Pulver, Lang & Schmid, 1978; Schmid, 1995, 121-129; 
Schmidt, 1982; Schmidtchen, 1975, 36-40; Westhoff & Kluck, 1991; Wot- 
tawa & Hossiep, 1987, (73-89). 

Der Psychologe hat in Diagnostik und Intervention mit Selbst- und Fremdbe- 
stimmung von Individuen zu tun, demnach mit ihrer Freiheit und Personwurde. 
Denn immer wieder werden ihm Informationen iiber personliche, ja intime 
,Gegebenheiten‘ anvertraut, iiber Sachverhalte somit, die der Sphare von 
Selbstbestimmung zugehoren. 

Diese Sphare wird auch beriihrt, wenn der Untersucher eine Intervention vor- 
schlagt, die etwa eine Berufs- Oder Partnerwahl betrifft. Wiederum muB er 
sich fragen, wie weit seine Vorschlage die ,Selbstverfiigung‘ des Probanden 
respektieren. 

Die Selbstenthiillung des Probanden und die Kenntnisnahme des Untersuchers 
vollziehen sich in einem vorgegebenen ethisch-juristischen Kontext. 

Resiimee: Eine diagnostisch-interventive Handlungssequenz schlieBt aus sich 
selber finale, soziale, ethisch-juristische Momente ein, wird durch sie selbst 
gleichsam mitkonstituiert. Nicht erst von auBen, etwa zufolge der Entschei- 
dungen eines Psychologen, erweisen sich Diagnostik und Intervention einem 
Rahmen zugeordnet, der auch andere Imperative einbezieht als die der Psy- 
chologic allein. 



1.4 Konzept einer Normativen Diagnostik 

Die vorausgegangenen Uberlegungen laufen auf die Aussage hinaus, daB Dia- 
gnostik und Intervention in einem bestimmten Sinne immer ,normativ‘ sind. 
Warum? Immer wieder muB der Psychologe erkennen, was ,gegeben‘ ist, und 
muB sagen, was ,geschehen‘ soil. Standig muB er ,Vergleiche‘ anstellen: zwi- 
schen einem Ist-Zustand und einem Soll-Zustand (etwa einer Storung und 
einem Zustand des Wohlbefmdens). Erwartet wird, daB der Psychologe iiber 
ein ,Kriterium‘ verfugt, an dem er diese ,Vergleiche‘ legitimiert. 

Genau diese Funktion bezeichnet das Konzept der ,Norm‘: ein Begriff, der 
seiner Wortbedeutung nach soviel besagt wie WinkelmaB, Richtschnur, Regel, 
Vorschrift. Der Psychologe, der Diagnostik und Intervention betreibt, ist an 
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vielfaltige und vielschichtige ,Regeln und Vorschriften 4 , in diesem Sinne also 
an ,Normen‘ gebunden. 

Freilich bedeutet ,normativ‘ hier etwas anderes als etwa bei Westmeyer (1972), 
der als , Normative Diagnostik 1 ein Vorgehen beschreibt, das vollig regel- und 
theoriegeleitet ist, weil 

sowohl ,diagnostische Frage‘ und ,diagnostische Antwort ‘ 

als auch der Zusammenhang zwischen Frage und Antwort 
eindeutig quantifizierbar und in Wahrscheinlichkeiten angebbar sind. 

Damit wird der diagnostische Akt unter dem Aspekt der Informationsverar- 
beitung betrachtet. Bei einer solchen Sicht ist vollstandige Transparenz ein 
hohes Ziel. 

In Grenzen zu erreichen und zu erstreben scheint diese Transparenz dann, 
wenn es um Verhaltensablaufe geht, die funktionalen Zusammenhangen gleich- 
oder nahekommen. Als Beispiel diene die kognitive Anforderung, die ein be- 
stimmter Beruf stellt; einem Studenten, der Ingenieur werden will, aber ma- 
thematisch unbegabt ist, laBt sich nachweisen, daB sein Berufswunsch aus 
, funktionalen Griinden 4 unrealistisch ist. - Zwar miissen auch in solchen Fallen 
soziale und ethische Aspekte beriicksichtigt werden, aber sie bleiben ,verhiill- 
ter‘. 

Fur Falle dieser Art stehen allerdings die Allsatze und Verkniipfungsregeln 
noch nicht zur Verfiigung, die erforderlich waren. „Umfassende Anforderungs- 
analysen liegen fur die Mehrzahl der Fragestellungen nicht vor“ (Durchholz, 
1981, 273). Eine Normative Diagnostik im Sinne Westmeyers erweist sich 
darum zur Zeit als unrealisierbar - aus praktischen Griinden (Wottawa & Hos- 
siep, 1987, 59-60). „Davon unberiihrt bleibt aber der begriiBenswerte Versuch. 
heuristische Varianten innerhalb einer ,Logik der Diagnostik 4 zur Diskussion 
gestellt zu haben“ (Guthke, Bottcher & Sprung, 1990, 40). 

Doch gibt es auch Falle, in denen es prinzipielle Grunde sind, die gegen eine 
Anwendung Normativer Diagnostik sprechen. Gedacht ist an Verhaltenszu- 
sammenhange, in denen die Selbstbestimmung einer Person betroffen ist. Als 
Beispiel diene eine Partnerwahl. Falls die Rede von , Selbstbestimmung 4 einen 
Sinn behalten soli, dann gewiB den: daB in solchen ,Wahlakten‘ das Verhalten 
etwas anderes ist als der Einzelfall eines allgemeinen Gesetzes. Darum scheint 
in einem solchen Kontext Normative Diagnostik unangemessen zu sein - 
selbst wenn in solchen Wahlakten auch funktionale Zusammenhange zu be- 
riicksichtigen sind. 

Freilich kommen an dieser Stelle anthropologische Uberlegungen und Uber- 
zeugungen mit ins Spiel; soziale und ethisch-juristische Aspekte gewinnen 
eine groBere Bedeutung als in Fallen, in denen der Diagnostiker nur , funktio- 
nale Zusammenhange 4 erfassen soil. 
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1.5 Zusammenfassung zu Kapitel 1 

Der Worbedeutung nach geht Diagnostik auf ein griechisches Verb zuriick, 
das soviel besagt wie ,kennenlemen, beschlieBen, entscheidenf - Der Sach- 
bedeutung nach bezeichnet Diagnostik eine Anwendungsmethodologie, die Re- 
geln angibt, wie psychologische Charakteristika von Personen zu erfassen und 
Bedingungen ihres Verhaltens zu ermitteln sind. 

Der Wortbedeutung nach geht Intervention auf ein lateinisches Verb zuriick, 
das soviel bedeutet wie ,einen Eingriff vomehmen, um einen Handlungsverlauf 
zu andern und Storungen zu beseitigen 1 . - Der Sachbedeutung nach bezeichnet 
Intervention ein psychologisches Handeln, das eine Verhaltensanderung an- 
zielt, die das seelische Wohlbefinden verbessem soil; die Anderung muB sy- 
stematisch kontrollierbar sein. 

Diagnostische Aussagen und interventive MaBnahmen haben praktische Be- 
deutung fur den Betroffenen. Darum stehen sie immer in einem finalen, so- 
zialen und juristisch-ethischen Kontext. 

Entwickelt haben sich Diagnostik und Intervention aus Anregungen, die von 
auBerhalb und innerhalb der Psychologie kamen. Von auBerhalb wurden 
Dienstleistungen angefordert, etwa aus dem Gerichtssaal oder aus dem pad- 
agogischen Feld. - Innerhalb der Psychologie wurden theoretische Annahmen 
und Modelle entwickelt. die eine Anwendung in der Praxis nahelegten. 



1.6 Kontrollfragen zu Kapitel 1 

- Umschreibung psychologischer Diagnostik. 

- Umschreibung psychologischer Intervention. 

- Unterschiede zwischen Diagnostik und Intervention. 

- Beispiele zur Entstehungsgeschichte von Diagnostik und Intervention. 

- Finale, soziale, juristisch-ethische Stmktur von Diagnostik und Interven- 

tion. 

- Unterschiedliche Bedeutungen des Konzeptes , Normative Diagnostik 4 . 





2. Kapitel 



Diagnostik und Intervention 
Unterschiedliche Modellvorstellungen 

Diagnostik und Intervention bilden kein einheitliches System, sie gehen auf 
unterschiedliche Ansatze zuriick. 

,,Psychologische Diagnostik entwickelte sich in unserem Jahrhundert zu- 
ndchst als eine besonders hoffnungsvolle Teildisziplin der Psychologie. 
Heute steht sie in vielfaltigen Auseinandersetzungen rnit divergenten per- 
sdnlichkeits- und verhaltenstheoretischen Positionen, beruht auf unter- 
schiedlichen methodologischen Ansatzen und wird mit berufsethischen und 
gesellschaftspolitischen Problemen konfrontiert. Sie hat sich gleicherma.fi- 
en gegeniiber Erwartungen wie gegen globale Disqualifikationen zu weh- 
ren“, (Grojfmann & Michel, 1982 a, VII; vgl. Guthke, Bottcher & Sprung, 
1990, 23-29; Jdger R. S. & Petermann, 1995, 15-48, 77-117; Leichner 
1979, 8-9). 

Kapitel 2 skizziert zwei personlichkeitspsychologische Ansatze, welche die 
Entwicklung des diagnostisch-interventiven Instrumentariums entscheidend 
gepragt haben: 

- Personlichkeitstheorien, die zeitstabile Eigenschaften annehmen (2.1), 
■ und Theorien, die eine Person als ProzeBgestalt deuten (2.2). 

Das Kapitel schlieBt mit einer Zusammenfassung (2.3) und der Vorgabe einiger 
Kontrollfragen (2.4) 



2.1 Konzepte zeitstabiler Eigenschaften 

Die Diagnostik wurde von Theoretikem mitgepragt, die annahmen, mensch- 
liches Verhalten entspringe sogenannten Eigenschaften (traits), die sich als 
relativ zeitstabil erweisen. Dem Verhalten wird zwar eine gewisse Variations- 
spanne zuerkannt. Vereinfacht gilt jedoch, daB sich eine Person gleichartig 
verhalt iiber Situationen und iiber Zeiten hinweg. Zu ermitteln sind darum 
Eigenschaften, denen das konstante und konsistente Verhalten entspringt. 

„Ein orthodoxer trait-Ansatz postuliert, dafi Verhalten ausschliefilich vom 
trait-Wert abhangig ist; trait und Verhalten stehen in monotoner Beziehung. 
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Situationen nehmen keinen modifizierenden Einflufi “ (Leichner, 1979, 29). 
-Allerdings ist zu ergdnzen: „Der wechselseitige Einflufi von Eigenschaf- 
ten und Situationen erzeugt vorubergehend innere Bedingungen, die als 
Zustande (states) bekannt sind“ (Eysenck & Eysenck, 1987, 35). 

Diesem Ansatz wil'd eine bestimmte Art von Diagnostik zugeordnet - zusam- 
mengefaBt in den Aussagen der klassischen Testtheorie und realisiert in Ver- 
fahren, deren Konstruktion sich an ihr orientiert (Kap. 4, S. 31). 

Das Instrumentarium der klassischen Testtheorie ist heftig kritisiert worden 
(Fischer, 1974, 16-145; Goldfried & Kent, 1976; Grubitzsch, 1991; Pawlik, 
1976; Schaller & Schmidtke, 1983, 491-508). 

Fur bestimmte Fragestellungen bleibt die Annahme relativ zeitstabiler Eigen- 
schaften jedoch sinnvoll: Beispiele sind Eignungspriifungen, Beratungen zum 
Verlauf der Bildungskarriere, Fragen der Forensischen Psychologie. 

Alleinbestimmend war dieser Ansatz nicht. 



2.2 ProzeBorientierte Konzeptionen 

Personlichkeitstheorien, die menschliches Verhalten vor allem als ProzeBge- 
stalt interpretieren, unterscheiden sich vielfaltig. Auf vier Spielarten sei ver- 



wiesen, auf 

- biographisch orientierte Modelle (2.2.1), 

- psychodynamische Theorien (2.2.2), 

- knteriumsorientierte Leistungsmessung (2.2.3), 

- interaktionistische Ansatze (2.2.4). 



2.2.1 Biographisch orientierte Personlichkeitsmodelle 

Die Benennung , biographisch orientierte Personlichkeitsmodelle 4 soil eine 
Gruppe von Theoretikem bezeichnen, die menschliches Verhalten zu verstehen 
suchen von seiner biographischen Genese her. Gedacht ist an Vertreter wie 
Biihler, Ch. (1933, 1969) oder Freud (1940), Fuchs, W. (1982), Kelly (1955) 
oder Murray (1938), Stern (1921, 1923) oder Thomae (1968) (vgl. Jiittemann 
& Thomae, 1987). 

Biographische Forschung hat eine Affinitat zu explorativen oder explorations- 
ahnlichen Methoden, also zu Gesprach, Befragung, Analyse von Selbstbe- 
schreibungen (Tagebiichem, Briefen, personlichen Dokumenten). 

Diese Verfahren sind ebenso nachdriicklich abgelehnt (Eysenck, 1967) wie 
entschieden verteidigt worden (Kruse, 1987; Fehr, 1964; Mischel, 1993; Tho- 
mae, 1968). Je ,existentieller‘ jedoch das diagnostische Problem ist, das ein 
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Proband zur Sprache bringt, desto hoher diirfte die Bedeutung sein, die dem 
,Gesprach 4 zufallt (Kap. 8, S. 211). 



2 . 2.2 Psychodynamische Theorien 

Auch psychodynamische Theorien versuchen, Verhalten aus der Biographie 
eines Menschen zu begreifen. Daruber hinaus betonen sie aber, Verhalten wer- 
de gesteuert von unbewuBten Spannungen und ihren Entladungen. Um Ver- 
halten zu begreifen, miisse der Psychologe demnach die unbewuBten Prozesse 
ermitteln. 

Diese Prozesse lassen sich jedoch nicht so erfassen, wie man Eigenschaften 
miBt. Zwar ,auBem‘ sie sich in Verhaltensweisen wie Versprechern, Traumen 
oder neurotischen Symptomen. Aber sie bis zu ihrem unbewuBten Ursprung 
zu verfolgen erfordert voraussetzungsvolle Interpretationsschritte - die mitzu- 
gehen nicht jeder Psychologe bereit ist. 

Psychodynamische Theorien werden von unterschiedlichen Autoren vertreten. 
Erwahnt seien nur zwei Gruppen: 

1. die drei Klassiker Freud, Adler, Jung und die verschiedenen tiefenpsycho- 
logischen Schulen, die sich gebildet haben (vgl. etwa Grawe, Donati & 
Bemauer, 1994; Kriz, 1991; Wyss, 1966); 

2. die Humanistischen Psychologen, etwa Rogers, Maslow, Fromm und die 
unterschiedlichen Gruppen ihrer Anhanger (vgl. etwa Kriz, 1991; Quit- 
mann, 1991; Volker, 1980). 

Zur Erfassung unbewuBter Dynamismen wurde eine eigene Klasse diagnosti- 
scher Instrumente entwickelt: die sogenannten projektiven Methoden, etwa 
sogenannte .thcmatischc' Verfahren. Heftiger noch als um die klassischen Tests 
ist um die projektiven Verfahren gestritten worden (Axhausen, 1989; Hormann, 
1982; Leichner, 1983). 

Gegen alle Einwande bleibt festzuhalten: Bei bestimmten Fragestellungen, vor 
allem klinischer Natur, konnen sie hilfreiche Suchdienste ubernehmen, sie kon- 
nen Heurismen fur das weitere Vorgehen bereitstellen (Kap. 11, S. 317). 



2.2.3 Kriteriumsorientierte Leistungsmessung 

Als Gegenpart zu den Theorien, die Verhalten auf zeitstabile Merkmale oder 
auf unbewuBte Prozesse zuruckfiihren, wurde ein diagnostisches Modell kon- 
zipiert, das kriteriumsorientierte Leistungsmessung 4 anzielt. Wie bei psycho- 
dynamischen Ansatzen soil der ProzeB des Verhaltens erfaBt werden, diese 
Erfassung soil sich aber orientieren an einem wohldefinierten Kriterium, etwa 
einem padagogischen oder einem therapeutischen Ziel (Fricke, 1974; Glaser, 
1973; Klauer, 1987). 
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Diagnostisches Instrument ist darum eine exakte Beobachtung und Beschrei- 
bung menschlichen Verhaltens. Zwar werden auch Tests eingesetzt - diese 
Tests sind jedoch nicht konzipiert nach der klassischen Testtheorie, sondem 
orientiert an einem Kriterium: einem Ziel, zu dem eine Therapie oder ein 
padagogischer ProzeB hinfiihren soil. Der kriterienorientierte Test reprasentiert 
eine Stichprobe des Ziel verhaltens; der Testwert dient als Indikator dafiir, wie 
weit sich ein Proband dem Ziel genahert hat (Kap. 5, S. 129). 



2.2.4 Interaktionistische Personlichkeitsmodelle 

Interaktionistische Personlichkeitsmodelle stellen das Verhalten dar als Resul- 
tante von Person und Situation, in diesem Sinne als Interaktion. Zu erfassen 
sind demnach ,gleiche‘ Verhaltensweisen, die in unterschiedlichen Situationen 
auftreten, oder ,gleiche‘ Situationen, die unterschiedliche Verhaltensmuster 
hervorrufen. In diesem Modell verbinden sich lemtheoretische und kognitions- 
psychologische Ansatze - es handelt sich um sozial-kognitive Lemtheorien, 
beispielsweise von Rotter und Hochreich (1979) oder Bandura (1977) und 
Mischel (1993). 

Als ein diagnostisches Instrument, das diesem Ansatz affin ist, wurde das 
sogenannte ,Situations-Reaktions-Inventar‘ entwickelt, ein Fragebogen, der er- 
mitteln soli, wie sich bestimnmte Formen gleichen Verhaltens in verschiedenen 
Situationen auBert (Noack & Petermann, 1995; Petermann, F. & U., 1978, 
52-53; Petermann, F. & U„ 1987). 

Resiimee: Schon diese zwei groBen Gruppen von Ansatzen - erstens die Kon- 
zepte zeitstabiler Eigenschaften, zweitens die prozeBorientierten Personlich- 
keitskonzeptionen - lassen sich nicht zu einem einheitlichen System von Dia- 
gnostik und Intervention integrieren. Erst recht gelingt die Integration dann 
nicht, wenn andere Aspekte auch beriicksichtigt werden, etwa wissenschafts- 
oder meBtheoretische Schulmeinungen. 

Im einzelnen diagnostischen Schritt, in der einzelnen diagnostischen Situation 
wird einmal der eine Ansatz iiberwiegen (etwa die Anwendung von Tests), 
ein andermal der andere Ansatz (etwa der Einsatz projektiver Verfahren). Kom- 
plexe Fragestellungen notigen den Diagnostiker meist dazu, verschiedenen An- 
satzen zu folgen - eine Aufgabe, die ihm standige ,Systemiiberschreitungen‘ 
abverlangt. 





2.3 Zusammenfassung zu Kapitel 2 
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2.3 Zusammenfassung zu Kapitel 2 

Psychologische Diagnostik und Intervention ergeben kein einheitliches Sy- 
stem. Zwei groBe unterschiedliche personlichkeitstheoretische Ansatze haben 
sie entscheidend gepragt: 

Einem Konzept, das von zeitstabilen Eigenschaften ausgeht, entstammt vor 
allem jenes Instrumentarium, das sich an der klassischen Testtheorie orien- 
tiert. 

Konzeptionen, welche die Person von ihren Verhaltensablaufen her deuten, 
begunstigten die Entwicklung und die Verwendung hochst unterschiedli- 
cher Methoden. Einige Theoretiker favorisierten die Exploration, andere 
die Verhaltensbeobachtung, wieder andere die kriteriumsorientierten Tests, 
die Situations-Reaktions-Inventare oder die projektiven Verfahren. 



2.4 Kontrollfragen zu Kapitel 2 

- Modellvorstellungen psychologischer Diagnostik und Intervention, 

■ Modelle zeitstabiler Eigenschaften und ihre Instrumente. 

- Modelle prozeBhafter Merkmale und ihre Instrumente. 

■ Biographisch orientierte Modelle und ihre Instrumente. 

- Psychodynamische Theorien und ihre Instrumente. 

- Kriteriumsorientierte Leistungsmessung. 

- Interaktionistische Ansatze und ihre Instrumente. 




3. Kapitel 



Zur Darstellung psychologischer Diagnostik 
und Intervention 

Ansatz bei der Diagnostischen Situation 

Da es kein einheitliches Konzept psychologischer Diagnostik und Intervention 
gibt, ist nicht zu vermuten daB ihre Darstellung einheitlich ausfallt. 

Die Sichtung einiger Lehrbiicher bestatigt diese Vermutung (Amelang & Zie- 
linski, 1994; Jager, R. S. & Petermann, 1995; Groffmann & Michel, 1982, 
1983; Guthke, Bottcher & Sprung, 1990, 1991; Kubinger, 1995 b; Leichner, 
1979; Wehner, 1981; Wottawa & Hossiep, 1987). 

Erkennbar werden aber Grundlinien: 

Dargestellt wird die historisch-systematische Einbettung von Diagnostik 
und Intervention, etwa die Herkunft aus der Psychiatrie oder die Verwandt- 
schaft mit der Personlichkeitspsychologie, die Einbindung psychologischer 
Arbeit in Ethik und Recht. 

Ausfuhrlich werden methodische Fragen abgehandelt, etwa die Grundlagen 
der Testtheorien, die Unterschiede der Datenklassen, die Aufgabe von Hy- 
pothese und Erklarung im diagnostischen ProzeB. 

Einzelne Verfahrensklassen werden breit geschildert, mit ihrer Geschichte, 
mit ihren diagnostischen Vorteilen und ihrer Problematik, etwa Leistungs- 
tests, Personlichkeitsinventare oder Interviewtechniken. 

■ Zur Sprache kommen Prozeduren, die Synthesen verlangen, etwa Klassifi- 
kationsverfahren, Formen diagnostischer Urteilsbildung, Modelle der Gut- 
achtenerstellung. 

SchlieBlich werden Anwendungsfelder skizziert, etwa die Rolle von Dia- 
gnostik und Intervention in der Padagogischen oder Klinischen Psycholo- 
gie, die Aufgabe von Diagnostik und Intervention in der Forensischen Psy- 
chology oder in der Arbeits- und Organisationspsychologie. 

Einschrankung: Eine Auflistung wie diese verschleiert den Umfang und die 
Vielschichtigkeit, die Komplexitat und die Disparatheit der diagnostischen und 
interventiven Thematiken, welche die Lehrbiicher vortragen - die Auflistung 
vereinfacht, vielleicht simplifiziert sie auch. Die Vereinfachung soil einen 
Uberblick ermdglichen und eine Gliederung erleichtern. 
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In den Lehrbiichem iiberwiegt die Darstellung einer ,formalen‘ Diagnostik. 
Das soil besagen: Die Lehrbiicher beschreiben detailliert, wie der Psychologe 
generell eine Fragestellung aufschliisseln und eine Antwort suchen kann. Sie 
leiten ihn an, wie er generell Fragebogen bewerten oder Explorationstechniken 
anwenden soil. Seltener beschreiben sie, wie er einzelne Merkmalsklassen de- 
finieren kann und welche Einzelverfahren zu ihrer Erfassung vorliegen. 

Eine Lehre, welche einzelne Merkmale und die Verfahren zu ihrer Erfassung 
bespricht, also eine ,materiale‘ Lehre von Diagnostik und Intervention, liegt 
nur in Ansatzen vor: 

- Behandelt werden ,klassische‘ Merkmalgruppen wie Intelligenz, Konzen- 
tration und andere Leistungsfunktionen; vorgestellt werden Verfahren, die 
zu ihrer Erfassung entwickelt wurden, etwa Intelligenz- und andere Lei- 
stungstests. 

Eher sparsam besprochen werden Personlichkeitsmerkmale wie Angst oder 
Aggression, Leistungsmotivation oder Extra/Introversion; Verfahren, die 
zu ihrer Erfassung dienen konnten, werden nur am Rande erwahnt. 

Auch dieses Buck folgt dieser Linie: Insgesamt wirel eine formale Lehre von 
Diagnostik und Intervention geboten. 

Suche nach einer Gliederung: Die Lehrbiicher bieten viele Anhaltspunkte fiir 
eine Gliederung. Um weitere Gesichtspunkte zu entdecken, betrachten wir eine 
,typische‘, somit vereinfachte diagnostische Untersuchung. Von der vereinfach- 
ten diagnostischen Situation her wollen wir die weitere Gliederung entwerfen. 

Diagnostische Situation ist „ein Sammelname fiir eine Reihe von Untergrup- 
pen von Situationen, deren jeweilige Bezeichnung sich nach den eingesetzten 
Verfahren (z. B. Test - bzw. Interview situation) oder nach der Aufgabenstellung 
(z. B. Examenssituation, Eignungsuntersuchungs- oder experimentelle Situa- 
tion) oder nach der besonderen Aktivitdt (z. B. Vortrags situation) richten kann “ 
(Spitznagel, 1982 a, 250). 

hi Kasten 3-1 sei eine diagnostische Untersuchung in einen schematischen 
Ablauf umgesetzt. 



Kasten 3-1: 

Diagnostische Untersuchung - vereinfacht und schematisiert 

Eine Fragestellung wird von einem Probanden eingebracht, eine Losung oder 
Beantwortung von einem Psychologen als Experten erwartet. 

Die Fragestellung iibersetzt der Psychologe in ein psychologisches Untersuchungsszenario. 

— Die entsprechenden psychologischen Untersuchungsverfahren miissen bestimmt werden, 
beispielsweise Tests, Fragebogen, Interviews. 

— Es folgt eine Phase der Untersuchung, zum Beispiel des Testens, der Verhaltensbeob- 
achtung, der Anwendung apparativer Verfahren. 

— Die erhobenen Daten miissen ausgewertet, die Ergebnisse verglichen und interpretiert 
werden. 

— Zu entscheiden ist dann, ob die gewonnenen Informationen ausreichen. um die Aus- 
gangsfrage zu beantworten, oder ob neue Informationen einzuholen sind. 
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Reicht die gesammelte Information aus, muB der Psychologe eine Antwort auf die zu 
Beginn gestellte Frage formulieren, beispielsweise eine Diagnose erstellen, eine Prognose 
geben, einen Entscheidungsvorschlag unterbreiten, interventive MaBnahmen empfehlen. 
Soweit moglich, muB er sich des Erfolgs vergewissern; er muB prlifen, ob seine diagno- 
stisch-interventive Handlungssequenz in ,Erfolg‘ mundete oder bei .MiBerfolg 1 endete: 
Er muB seine Ergebnisse evaluieren. 



Gehen wir das Szenario in Kasten 3-1 durch: Was hat der Diagnostiker in der 
diagnostischen Situation zu leisten? 

Beginnen wir am Ende: 

1. Auf die ,Ausgangsfrage‘ eine , psycliologische Antwort ‘ zu geben, erfordert 
die Synthese unterschiedlicher Informationen. Der Psychologe mufi unter- 
schiedliche Verfcihren anwenden und ihre Aussagen integrieren. Diese Lei- 
stung ld.fi t sich darum zusammenfassen unter clem Titel der Integration. 

2. Die Integration stiitzt sich auf die Ergebnisse einzelner Verfahren, etwa 

auf Test- und Fragebogenwerte oder auf Daten, die aus projektiven Ver- 
fahren stammen. Der Diagnostiker mufi demnach iiber die Kenntnis spe- 
zieller Einzelverfahren verfiigen, 

3. Die Anwenclung einzelner Verfahren setz.t voraus, dafi der Psychologe be- 

stimmte Grundkenntnisse erworben hat: Beispielsweise erfordert der Ein- 
satz von Tests die Kenntnis der Testtheorien, ein Interview verlangt die 
Beherrschung von Regeln der Gesprdchsfuhrung, eine Vorlage projektiver 
Verfahren schliefit die Vertrautheit mit ihren Anwendungs- und Auswer- 
tungsregeln ein. 



Weitere Gliederung dieses Buches 

An diesen drei Aspekten orientiert sich die weitere Gliedemng des Buches. 
Wir referieren den Lehrstoff in drei Durchgangen: 

Unter dem Namen diagnostischer Grundkenntnisse werden Testtheorien, 
Regeln der Verhaltensbeobachtung und der Gesprachsfiihrung vorgestellt 
(Teil II). 

Unter dem Titel spezieller Einzelverfahren werden zum einen Leistungs- 
und Personlichkeitstets, zum anderen projektive Verfahren besprochen (Teil 
III). 

- In einem weiteren Durchgang besprechen wir Einzelfragen, die in den 

anderen Teilen zwar erwahnt, aber nicht explizit behandelt werden. Ge- 
nannt seien Aufgaben wie Klassifikation und Selektion, Statistische und 
Klinische Urteilsbildung, Erfolgskontrolle, Nutzenschatzung, edv-gestiitzte 
Diagnostik (Teil IV). 

- Als Aufgabe einer diagnostisch-interventiven Integration werden Unter- 
suchungsprozeB und Urteilsbildung beschrieben und Beispiele fur diese 
Leistung angefuhrt, etwa der Verlauf eines Assessment-Centers oder die 
Erstellung eines psychologischen Gutachtens (Teil V). 
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Zusammenfassung zu Kapitel 3 

Es wird die weitere Gliederung des Stoffes in diesem Buche vorgestellt. Der 
Lehrstoff wird in drei Durchgangen geboten: 

- Vorgestellt werden ,Grundkenntnisse von Diagnostik und Intervention 4 ; 
dazu zahlen psychologische Testtheorien sowie Regeln der Verhaltensbe- 
obachtung und der Gesprachsfuhrung (Teil II). 

Als ,spezielle Einzelverfahren 4 werden die Klassen der Leistungs- und Per- 
sonlichkeitstests sowie der projektiven Verfahren besprochen (Teil III). 

In einem eigenen Durchgang werden Einzelfragen besprochen. die in den 
anderen Teilen zwar vorkommen, aber nicht explizit behandelt werden 
(Teil IV). 

SchlieBlich werden Schritte und Beispiele .diagnostischer Integration 1 be- 
schrieben (Teil V). 




Teil II 



Grundkenntnisse 

Der Titel „Grundkenntnisse“ soli jene Wissensanteile bezeichnen, die jeder 
diagnostisch-interventive Schritt einschlieBt. Drei Bereiche seien dazu gezahlt: 
Verhaltensbeobachtung, Gesprachsfuhrung, Testtheorien. 

Begriindung der Stoffauswahl: Auf ,Gesprdche‘ ist jeder Anwender angewie- 
sen - etwa wenn er klaren will, warum ein Klient ihn aufsucht. Aussagen, die 
aus Gesprachen stammen, lassen sich erganzen und bereichem durch Aussa- 
gen, die auf ,Verhaltensbeobachtungen‘ beruhen. Insofem gehoren Kenntnisse 
iiber diese beiden Verfahren zum ,Grundwissen‘ eines diagnostisch und inter- 
ventiv tatigen Psychologen. 

Gesprach und Beobachtung lassen sich in Wechselbeziehung zu den Testtheo- 
rien setzen. Wer Daten quantifizieren will, die er in einer Exploration oder 
bei Verhaltensbeobachtungen gewonnen hat, sieht sich auf MeB- oder Test- 
theorien verwiesen, setzt ihre Geltung also voraus. 

Umgekehrt gilt: Wer MeB- oder Testtheorien auf Daten anwendet, setzt inhalt- 
lich verbale Klassifikationen voraus - gewonnen beispielsweise bei Verhal- 
tensbeobachtung oder in Interviews. 

Weil aber die Behandlung von Gesprach und Verhaltensbeobachtung schon 
testtheoretische Fachbegriffe erfordert, etwa Objektivitat oder V alidititat, sei 
vorgegangen wie folgt: 

- Zunachst seien Testtheorien skizziert (Kap. 4-6), 

- danach die Verhaltensbeobachtung behandelt 

■ schlieBlich die Gesprachsfuhrung vorgestellt (Kap. 8), 

Zwei Grundprobleme: Bei Beschaftigung mit Testtheorien, Verhaltensbeob- 
achtungen und Gesprachen trifft der Diagnostiker standig auf zwei Probleme: 

In der Psychologie sind die Variablen nicht vorgegeben, sondem miissen 
,konstruiert‘ werden. (In der Physik sind manche GroBen vorgegeben, we- 
nigstens fur den ersten Blick, etwa Lange, Breite, Hohe.) In der Psycho- 
logie ist kein ,Gegenstand an sich‘ gegeben, weder ,Intelligenz‘ oder ,Kon- 
zentration 1 noch ,Stimmung‘ oder ,Zufriedenheit'. Der messende Psycho- 
loge muB seine Gegenstande immer wieder neu definieren - ,abgrenzen‘. 
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Darum notigt fast jedes der folgenden Kapitel zur Besprechung von De- 
finitionsfragen, von Versuchen, ,Variablen zu operationalisierenf 

,,Da es keine giiltigen Kriterien dartiber gibt, warm die Operationalisie- 
rung einer Variablen gelungen ist, ist eine genaue Beschreibung dieser 
Operationalisierung unerldfilich “ (Wittke, 1980, 29). 

- Die neu definierten Variablen betreffen Prozesse, die sich cindern oder 

andern konnen, indent sie beobachtet oder gemessen werden. Es ist das 
Problem der Reagibilitat, der ,betroffenen‘ Reaktion auf einen MeBvor- 
gang. Der Gegenstand ,Intelligenz‘, wird er gemessen, andert sich, bei- 
spielsweise durch Lemen: Ein Schuler, dem zweimal derselbe Schullei- 
stungstest vorgelegt wird, iibertragt aus der ersten Testung Erfahrungen 
auf die zweite Testung. - In der diagnostischen Situation ergibt sich somit 
das Problem, daB sich bei derselben Person kaum je ein Verfahren beliebig 
wiederholen laBt (wie etwa in der Makrophysik eine Langenmessung). 

Diese beiden Probleme werden die nun folgende Darstellung beeinflussen, 
zunachst die der Testtheorien. 

Vorbemerkung zu den Testtheorien: In vielen diagnostischen Untersuchungen 
werden Tests verwandt: Verfahren, die Leistungen messen oder Personlich- 
keitsmerkmale erfassen. Der Konstruktion solcher Verfahren liegen Regeln zu- 
gmnde, die in Testtheorien formalisiert sind. 

Wir skizzieren drei Ansatze: 

- die klassische Testtheorie 

- die kriteriumsorientierte Leistungsmessung 

- das probabilistische Modell von Rasch 

Den drei Kapiteln seien drei Abschnitte vorausgeschickt: 

- eine Umschreibung von Tests, 

- eine Einteilung psychodiagnostischer Verfahren und 

ein Hinweis auf Messen als Voraussetzung einer Testkonstruktion. 



(Kap.4), 
(Kap.5), 
(Kap. 6). 



Umschreibung von Tests 

Das Wort ,Test‘ hat vielerlei Bedeutungen, in der Umgangssprache wie in 
verschiedenen Fachsprachen. Darum sei festgelegt, was hier unter psycholo- 
gischen Tests verstanden wird. 

Da zur Zeit die meisten Tests noch nach den Regeln der klassischen Testtheorie 
konstruiert sein durften, sei eine Umschreibung gewahlt, die dem , klassischen 1 
Ansatz zugeordnet ist, sie stammt von Guthke (1972, 69). Die Definition er- 
laubt es aber, Unterschiede zu den beiden anderen Theorien (kriteriumsorien- 
tiert, probabilistisch) zu markieren. 
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A is Test soil gelten „ein Priifverfahren, bei dent in standardisierten Si- 
tuationen V erhaltensmerkmale (Verhaltensstichproben) von Personeit er- 
fafit werden, die als Indikatoren ftir bestimmte Personeneigenschaften 
dienen sollen, und dessen Resultate eine Einordnung der Untersuchten 
in eine Klassifikation erntdglichen, die an einer Gruppe vergleichbarer 
Personen gewonnen wurde“. 

In der Umschreibung treten vier Charakteristika hervor: 

1. Ein psychologischer Test ist ein Priifverfahren: Er dient praktischen oder 
wissenschaftlichen Unterscheidungszwecken. Er soil es erlauben, Personen 
nach bestimmten Merkmalsauspragungen zu unterscheiden, so wie eine 
Klassenarbeit es ermoglicht, zwischen den Schulem Wissensunterschiede 
zu erkennen. Es charakterisiert den Test, daB er sich nach Art einer Routine 
verwenden laBt. Dies gilt in alien drei Testtheorien, doch divergiert die 
Art der Unterscheidung: 

■ Klassische und probabilistische Tests lassen sich nur dann anwenden, 
wenn zwischen den Testpersonen Differenzen auftreten bezuglich des 
Testmerkmals. 

Der kriteriumsorientierte Test ,funktioniert‘ auch dann, wenn zwischen 
den getesteten Personen keine Differenzen auftreten bezuglich des Test- 
merkmals. 

Klarer verstandlich werden diese Hinweise erst bei Besprechung der drei 
Testtheorien. 

2. Ein Test sieht standardisierte Situationen vor: Darin druckt sich zum 
einen ein theoretisches Ideal, zum anderen ein praktisches Ziel aus - zu- 
treffend fur alle drei Ansatze. 

- Das theoretische Ideal betrifft die Objektivier- und Vergleichbarkeit der 
Daten, es ist ein MeBideal. 

- Das praktisches Ziel betrifft die Anwendung: die Absicht, ein Instru- 
ment zu entwickeln, das handwerklich, geradezu routinemaBig anwend- 
bar ist. 

3. Der Test ,sammelt‘ eine Verhaltensstichprobe als Indikator fiir Perso- 
neneigenschaften. Dies gilt fiir alle drei Ansatze, aber in unterschiedli- 
chem Sinne: 

- Die klassische Testtheorie interpretiert die Personeneigenschaft als re- 
lativ stabiles Merkmal. 

■ Eine Eigenschaft versteht der probabilistische Ansatz ebenfalls als ein 
stabiles Merkmal, formuliert aber exaktere Annahmen iiber den Zu- 
sammenhang zwischen Testverhalten und diesem Merkmal. 

■ Die kriterienorientierte Messung faBt das Personenmerkmal offener: 
Das Merkmal kann einen VerhaltensprozeB betreffen, aber ebenso eine 
stabile Eigenschaft. 

4. Das Testergebnis ermoglicht eine Zuordnung des Probanden zu einer 
Gruppe vergleichbarer Personen. Darin druckt sich eine bestimmte Art 
der Personbeschreibung aus. 
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GemaB der klassischen Testtheorie werden Gruppen von Personen ge- 
bildet, deren Testergebnisse vergleichbar sind. Mit den Leistungen sol- 
cher Gruppen, der sogenannten Norm- oder Eichstichproben, wird die 
Testleistung eines einzelnen Probanden oder einer Probandengruppe 
verglichen. 

- Bei der kriterienorientierten Leistungsmessung wird eine Testleistung 
eines Probanden oder einer Gruppe verglichen mit einem Kriterium, 
das ein bestimmtes Verhalten inhaltlich umschreibt. 

Bei dem probabilistischen Model 1 wil'd eine Testleistung verglichen mit 
einer Verteilung von Parametem, die an einer Stichprobe ermittelt und 
auf Modellvertraglichkeit gepriift worden sind. 

Fur alle drei Ansatze diirfte eine Umschreibung gelten, die besagt: 

Test bezeichnet ein diagnostisclies Priifverfahren, das Verhalten in stan- 
dcirdisierten Situationen erhebt und Vergleiche mit Gruppen und/oder 
mit Kriterien ermoglicht. 

Erganzungshalber zitiert Kasten II- 1 eine Definition aus einem klassischen 

Lehrbuch. 



Kasten II-l: 

Definition des Tests in einem klassischen Lehrbuch 

Quelle: Testaufbau und Testanalyse von Lienert & Raatz (1994, 1). 

„Ein Test ist 

ein wissenschaftliches Routineverfahren 

zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Personlichkeitsmerkmale 

mit dem Ziel einer moglichst quantitativen Aussage 

iiber den relativen Grad der individuellen Merkmalsauspragung.“ 



Einteilung psychodiagnostischer Verfahren 

Tests sind unter vielen Perspektiven klassifiziert worden. Eine Einteilung, die 
einhellig akzeptiert ware, diirfte es nicht geben. 

Um jedoch die Vielfalt der Verfahren zu veranschaulichen, die den Titel ,Test‘ 
tragen, sei eine Einteilung von Brickenkamp (1975, 13) ubernommen, der ge- 
nerell bei den psychologischen Verfahren drei Hauptklassen unterscheidet - 
Leistungstests, psychometrische Personlichkeitstests und Personlichkeits-Ent- 
faltungsverfahren oder projektive Verfahren: 

Leistungstests sind Verfahren, die nach einer Testtheorie konstruiert wer- 
den, sie lassen sich charakterisieren durch das Stichwort ,Performanz‘. Sie 
verlangen eine Reahsierung jenes Verhaltens, das gemessen werden soil. 
Das Verhalten, das zu realisieren ist, kann unterschiedlichen Bereichen 
entstammen. Nach diesen verschiedenen Bereichen lassen sich Klassen von 
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Leistungstests benennen, beispielsweise: Intelligenztests, Konzentrations- 
tests, Entwicklungstests, Schultests (vgl. Kapitel 9, S. 263). 

- Psychometrische Personlichkeitstests werden ebenfalls nach einer Test- 

theorie konstruiert, sie lassen sich kennzeichnen durch das Stichwort ,Des- 
kription 1 . Sie fordem vom Probanden eine formalisierte Selbstbeschrei- 
bung, die sein typisches Verhalten wiedergeben soli. Andere Bezeichnungen 
lauten: psychometrische Fragebogen, Personlichkeitsinventare ocler Que- 
stionnaire. Die Beschreibungsdimensionen konnen unterschiedliche Berei- 
che betreffen, demnach kann man beispielsweise unterscheiden: Person- 
lichkeitsstrukturtests, Einstellungs- und Interessentests sowie Klinische 
Tests (vgl. Kapitel 10, S.263). 

- Personlichkeits-Entfaltungsverfahren oder projektive Verfahren wer- 

den nicht nach einer Testtheorie konzipiert. Sie bezeichnen Instrumente, 
die den Probanden auffordem, relativ unstrukturiertes Material zu deuten 
oder zu gestalten. In die Gestaltungen oder Deutungen, so wird angenom- 
men, verlegt der Proband seine Bedurfnisse, Wunsche, Vorstellungen, Fer- 
tigkeiten oder Fahigkeiten. Ein mehrstufiger AuswertungsprozeB soil dem 
Untersucher helfen, diese Wunsche, Bedurfnisse, Vorstellungen, Fahigkei- 
ten zu erschlieBen (vgl. Kapitel 11, S. 317). 

Resumee: Die kurze Charakteristik zeigt, daB nur Leistungs- und Personlich- 
keitstests zu der Klasse von Verfahren gehoren, auf die eine Testtheorie An- 
wendung findet. Die Personlichkeits-Entfaltungsverfahren, die projektiven 
Verfahren, gehoren zu einer eigenstandigen Gmppe diagnostischer Vorgehens- 
weisen. 

Im Dienste einer eindeutigen Sprachregelung sei darum festgelegt: Wenn im 
weiteren Fortgang dieses Buches von Tests die Rede ist, sincl Leistungs- oder 
Personlichkeitstests gemeint. Fur Personlichkeits-Entfaltungsverfahren oder 
projektive Verfahren werden wir das Wort Test nicht verwenden. 

Eine Ausnahme ist angezeigt, wenn das Wort ,Test‘ zum ,Eigennamen‘ eines 
projektiven Verfahrens gehort, wie etwa beim .Thematischen Apperzeptions- 
Test‘ (TAT) von Murray (1943). 

Messen als Voraussetzung von Testen 

Der Test soil ein MeBinstrument sein, eine Skala, die MaBeinheiten fur Ver- 
haltensmerkmale liefert. Was bedeutet das? 

„ Man kann . . . sagen: Messen bestehe darin, dap wir Objektrelationen, die 
nicht unsere Erfindung sincl, durch Zahlenrelationen abbilden, die unsere 
Erf inching sincl “ (Sixth 1967, 3). 

Wer demnach eine Messung vomimmt, muB zuerst die Objektrelationen un- 
tersuchen, um danach die Zahlenrelationen zu konstruieren. Die MeBtheorie 
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liefert Kriterien, die zu beurteilen erlauben, wie genau sich die Objektrelatio- 
nen in den Zahlenrelationen abbilden. 

Erinnert sei an die bekannten drei Stichworte, die den MeBvorgang charakte- 
risieren: Reprasentativitat, Eindeutigkeit, Bedeutsamkeit. 

Reprasentativitat betrifft die Qualitat der Abbildung: Das empirische Relativ 
(das Merkmalsgefuge) soil so im numerischen Relativ abgebildet werden, daB 
die Beziehungen des empirischen Relativs auch in den Beziehungen des nu- 
merischen Relativs auftreten. 

Eindeutigkeit betrifft die Transformation, die im numerischen Relativ mathe- 
matisch moglich ist, ohne die Relationen des numerischen Relativs zu verfal- 
schen. 

Eine Angabe auf Nominalskalenniveau bleibt eindeutig, sofem die Zahlen 
nach der Transformation die gleichen Klassenzuordnungen ermoglichen 
wie vorher, also die Unterscheidung von Gleichheit und Verschiedenheit. 
Austauschbar sind die Zahlen, die Gleichheit oder Verschiedenheit aus- 
driicken. Beispiele sind Elaus-, Auto- oder Telefonnummem. 

Eine Skala auf Ordinalskalenniveau erlaubt Transformationen, bei denen 
die Relation von ,groBer/kleiner‘ oder ,fruher/spater‘ oder ,nach/vor‘ ge- 
wahrt bleibt. Die Abstande, die zwischen den Objekten im empirischen 
Relativ bestehen, werden im numerischen Relativ nicht adaquat abgebildet. 
Beispiele sind Schulnoten. 

Eine Skala auf Intervallskalenniveau laBt Transformationen zu, bei denen 
die Gleichheit der Differenzen in den Einheiten gewahrt bleibt. Die Art 
der Einheit kann variieren. Beispiele sind Thermometer, Kalenderzeit, man 
zahlt dazu auch Testscores. 

- Bei einer Skala auf Verhaltnisskalenniveau ist eine Transformation zu- 
lassig, bei welcher der Abstand zum Nullpunkt exakt angebbar bleibt. 
Ersetzbar sind die Angabe-Einheiten. Beispiele sind Lange, Gewicht, Zeit- 
angaben, vermutlich auch bestimmte Skalen der Psychophysik. 

Bedeutsamkeit betrifft nicht die Frage des semantischen Gehaltes von Skalen, 
sondem die Frage, welche mathematischen/statistischen Operationen fur die 
einzelnen Skalen erlaubt sind. 

Kasten II-2 faBt vier exemplarische Skalentypen zusammen (Bartel, 1971, 12; 
Bortz, 1989, 31; Stevens, 1963, 25). 
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Kasten II-2: 

Vier exemplarische Skalenarten 



Skala 


Aussagen 


Erlaubte Kennwerte 
Erlaubte Verfahren 


Beispiele 


Nominal 


Gleich/Ungleich 


Haufigkeiten/Chiquadrat, 
V ierfelderkoeffizient 


Telefon-, 

Autonummmern 


Ordinal 


GroBer/Kleiner 

Nach/Vor 


Median, Quartile, 
Percentile/Rangkoeffizient 


Windstarken, 

Schulnoten 


Intervall 


Gleichheit von 
Differenzen 


Arithm. Mittel, Standardabwei- 
chung/Produktmomentkorrelation 


Thermometer, 

Kalenderdaten 


Ratio/Ver- 

hdltnis 


Gleichheiten von 
Zahlenverhaltnissen 


Geometrisches Mittel, 
V arianzkoeffizient 


Lange, 

Gewicht 



Gleichgiiltig, nach welcher Theorie ein Test konstruiert wird, er soli den An- 
forderungen entsprechen, die in den Satzen iiber Messen formuliert sind. Das 
sei nun fur drei testtheoretische Ansatze dargestellt, zuerst fur die klassische 
Testtheorie. 



Testtheorien im Dienst von Diagnostik und Intervention 

Die drei Testtheorien, die skizziert werden, dienen den beiden Anliegen, Dia- 
gnostik und Intervention, in unterschiedlichem MaBe: 

Der klassische und der probabilistische Ansatz stehen eher im Dienste der 
Diagnostik. Aber in begrenztem MaBe tragen sie auch zur Intervention bei. 
- Der kriteriumsorientierte Ansatz ist eigens zum Zweck der Interven- 
tion(smessung) konzipiert worden: vor allem in Padagogischer und Kl ini- 
scher Psychologie. Aber auch eine kriteriumsbezogene Messung erbringt 
zuerst eine diagnostische Aussage. 

Die Unterschiede sollten sich bei Darstellung der drei Konzeptionen verdeut- 
lichen. 













4. Kapitel 



AbriB der klassischen Testtheorie 

Die meisten Tests, die heute in psychologischer Diagnostik und Intervention 
verwandt werden, sind nach den Regeln der sogenannten klassischen Testtheo- 
rie konstruiert. 

Unter klassischer Testtheorie versteht man ein System syntaktischer Aussagen, 
an dem sich seit Beginn dieses Jahrhunderts die Konstruktion von Tests orien- 
tierte und das 1950 von Gulliksen zusammenfassend formalisiert, 1968 von 
Lord und Novick emeut uberarbeitet und systematisiert worden ist (Michel & 
Conrad, 1982, 16). 



Hier werden nur einige Grundgedanken vorgestellt 

Wir skizzieren die Theorie, indem wir die Genese eines Tests verfolgen. Unter 
vier Titeln gibt Kasten 4-1 einen Vorblick auf den schwer eingrenzbaren Lehr- 
stoff (vgl. Trankle, 1983, 238-240). 



Kasten 4-1: 

Genese eines Tests im Uberbliek 

Entwurf: 

Sichtung theoretischer Ansatze und empirischer Befunde, die zum Thema vorliegen, 
Konzeptualisierung und Ausarbeitung der Fragestellung, 

Festlegung der Merkmale, die erfaBt (oder miterfaBt) werden sollen, 

- Befragung von Experten. 

Erprobung: 

Vorlage der Testvorform bei einer Stichprobe, die der Zielgruppe moglich ahnlich ist: 
=> zur Emiittlung miBgliickter Itemformulierungen, 

=> zur Analyse der Testaufgaben (Itemanalyse), 

- Auswertung. 

Revision: 

Selektion, Elimination oder Uberarbeitung der Items aufgrund der Erprobungsergeb- 
nisse, 

gegebenenfalls Wiederholung der Erprobung, 

Erstellung eines revidierten Tests. 
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Endfassung: 

Ziehung einer angemessenen Stichprobe der Zielgruppe, 

Vorlage und Auswertung des revidierten Tests: 

=> Bestimmung von Standardisiemng (Objektivitat), MeBgenauigkeit 
(Reliabilitat) und Giiltigkeit (Validitat), 

=> Festlegung genereller und, sofem moglich, spezieller Normen, 

Interpretation der Ergebnisse unter Berticksichtigung der methodischen Beschrankun- 
gen, 

Vergleich mit Ergebnissen, die auf ahnlichen oder die auf andersartigen Methoden 
beruhen. 



Die Darstellung des Kapitels gliedert sich in sechs groBere Abschnitte: 



- Fragestellung, Testmerkmal, Test-Item (4.1), 

- Itemanalyse (4.2), 

- Ermittlung der Testgutekriterien (4.3), 

- Normierung oder Eichung (4.4), 

- Beitrag zu Diagnostik und Intervention (4.5), 

- Kritik der klassischen Testtheorie (4.6). 



Das Kapitel schlieBt mit einer Zusammenfassung (4.7) und der Vorgabe einiger 
Kontrollfragen (4.8). 



4.1 Fragestellung, Testmerkmal, Test-Item 



Wir besprechen fiinf Teilprobleme: 

- Konzeptualisiemng von Fragestellung und Testmerkmal (4.1.1), 

- Zuordnung von Testmerkmal und Test-Item (4.1.2), 

- Wahl einer Konstruktionsstrategie (4.1.3), 

' Bestimmung der Testart (4.1.4), 

- Itemgenerierung und Itemgestaltung (4.1.5). 



4.1.1 Konzeptualisiemng von Fragestellung und Testmerkmal 

Die klassische Testtheorie prasentiert ein formales System. Vor Anwendung 
ihrer Regeln stellen sich jedoch inhaltliche Fragen, auf welche sie keine Ant- 
wort vorsieht. Eine solche Frage betrifft den Grund, warum ein ,neues‘ In- 
stmment entwickelt werden soli, betrifft also die Fragestellung, von der eine 
Testkonstruktion ausgeht. Die Anlasse konnen verschieden sein: 

Ein Untersucher mag in seiner (praktischen oder wissenschaftlichen) Ar- 
beit auf eine Auf gate stofien, fiir die er von fertigen Instrumenten keine 
Losung erwartet, fiir deren Bewaltigung er datum ein neues Verfahren 
anfertigen will, etwa: Wie Idfit sich Kreativitat bei Sonderschulern messen? 
Wie lafit sich ,Lebenszufriedenheit‘ von Menschen in Altersheimen erf as- 
sert ? 
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Eine Institution mag ein ,neues Problem ‘ entclecken oder ein altes Problem 
,neu sehen‘ und die Entwicklung eines Instruments in Auftrag geben, von 
dem sie eine Losung erhofft: Im Auftrag der Kultusminister der Lander 
der Bundesrepublik Deutschland wurde der ,Test fiir medizinische Studien- 
gdnge ( TMS)‘ eingefiihrt. Zusdtzlich zum Abitur ist er ein Kriterium bei 
der Vergabe medizinischer Studienpldtze (Trost und Mitarb., 1995; Fay, 
1982; Fisseni, Olbrich, Halsig, Mailahn & Ittner 1993). 

Aus der Fragestellung ergeben sich konkrete Regeln und Schritte fiir die Kon- 
struktion eines ,neuen Instrumentes 4 . Sie sind jeweils spezieller Natur. - Ein- 
geschlossen ist aber eine Frage, die allgemeiner Natur ist: Auf welche Weise 
ist das Merkmal zu bestimmen, das der ,neue Test 4 erfassen soil? 

Zunachst stellt sich die Aufgabe einer Abgrenzung - einer theoriegeleiteten 
Definition. Jede Messung von Merkmalen beruht auf theoretischen Annahmen 
iiber Verhalten, iiber Messen und MeBinstrumente. Bei der Testkonstruktion 
sollten die Annahmen explizit genannt werden. Beispiel: Thurstone (1938) hat 
aus einer faktorenanalytisch gewonnenen Strukturierung kognitiver Dimensio- 
nen Verhaltensbereiche ,ausgegrenzt‘, die ein neuer Test erfassen sollte (Pri- 
mary mental abilities). 

Das Merkmal, das der Test ,abbilden‘ soil, sei umschrieben 

als eine Zusammenfassung (als ein Kiirzel) mehrerer empirisch beobacht- 
barer Verhaltensweisen, die 

eine gewisse Konstanz iiber Zeitraume (die nicht definiert sind) und 
- eine gewisse Konsistenz iiber Situationen (die relevant sind fiir das Ver- 
halten) aufweisen sollen. 

Anschaulicher schreibt Klauer (1987, 13-14): 

„ Unter Personlichkeitsmerkmal verstehen wir die Eigenschaft eines Men- 
schen, in einer gegebenen Klasse von Situationen eine bestimmte Klasse 
von Verhaltensweisen zu dufiern. “ 

Damit ist auch gesagt: Das Merkmal, das ein Test erfassen soil, ist nicht be- 
obachtbar, es ist nur erschlieBbar. Es ist kein Beobachtungs-, es ist ein Dis- 
positionspradikat. Die , Verhaltensweisen 4 dagegen, welche den SchluB er- 
moglichen, miissen beobachtbar sein: etwa die Aufgabenlosungen in einem 
Leistungstest und die Antworten auf Fragen in einem Personlichkeitsinventar. 

Der folgende Abschnitt soil die Herleitung konkreter Konstruktionsschritte aus 
theoretischen Annahmen an einem Beispiel veranschaulichen. 

Demonstration: 

Eine theoriegeleitete Testkonstruktion. 

Entwicklung der personality Research Form ‘ (PRF) 

Der Zusammenhang zwischen theoretischem Ansatz und Konstruktion eines 
Fragebogens sei veranschaulicht an der Herleitung des Fragebogens personal- 
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ity Research Form 1 aus Murrays Personologie (Angleitner, Stumpf & Wieck, 
1976; Jackson, D.N. 1974; Stumpf et al., 1985): 

Ansatz: Jackson, der Autor der PRF, ging von Murrays Theorie iiber Bedurfnis 
und Druck (need and press) als (motivationale) Ursprunge des Verhaltens aus. 

Merkmalsdefinition: Er ubemahm die Konstrukte der ,Bediirfnisse‘ (nicht 
die der ,Drucke‘), definierte sie aber alle neu. 

Beispiel: Autonomie in holier Auspragung umschreibt ein Verhalten, das dar- 
auf abzielt, sich freizuhalten von Beschrdnkungen jeder Art, Aktivitaten zu 
vermeiden, die eine hohere Autoritdt vorschreibt, nach Freiheit und Unabhdn- 
gigkeit zu streben, den eigenen Eingebungen zu folgen und Konventionen zu 
umgehen (vgl. Angleitner Stumpf & Wieck, 1976, 18; Stumpf et al., 1985, 44). 

Formulierung von Testfragen: An den ,Definitionen orientierte sich die For- 
mulierung der Testfragen, der sogenannten ,Items‘. 

Beispiele fur die Skala , Autonomie 4 (Angleitner et al., 1976, 143, 146, 147 
Fragebogenform AA): 

Icli wiirde gernfrei durch die Lander ziehen. (Item 27) 

- Abenteuer die icli allein durchstehen mufi, 

bedngstigen mich ein bifichen. (Item 49) 

Ich will vor allem unabhangig und frei sein. (Item 115) 

- Icli versuche meistens, meine Sorgen mit jemandem zu teilen, 

der mir helfen kann. (Item 137) 

Zwei Experten iiberpruften, ob die Testfragen folgenden Kriterien entsprachen 
(Stumpf et al., 1985, 9): 

„ 1. Konformitat zum zugehorigen Konstrukt, 

2. angemessene Reprdsentierung positiver wie negativer Ausprdgungen eines 
jeden Merkmals, 

3. Klarheit und Unzweideutigkeit, 

4. Freiheit von extremer sozialer Erwiinschtheit (bzw. Unerwiinschtheit), 

5. voraussichtliche Diskriminationsfahigkeit und hinreichende Popularitdt in 
den in Frage kommenden Bezugsgruppen, 

6. Reprdsentativitdt der einzelnen Itemmengen in bezug auf das jeweilige 
Merkmal. “ 

Personenbeschreibung: Jackson beschrieb (fiktive) Personen mit hoher und 
Personen mit niedriger Auspragung der drei Merkmale , Autonomie 4 , ,Impul- 
sivitat 4 und ,Dominanz‘. Zu jedem wurden sechs Items vorgegeben. 

59 Beurteiler sollten angeben, „fiir wie groB sie die Wahrscheinlichkeit hielten, 
daB die fiktiven Personen dem Item beipflichten wurden 44 (Stumpf et al., 1985, 
9). 

Bei dem folgenden Beispiel handelt es sich um die Beschreibung einer Person, 
die eine geringe Auspragung von Autonomie besitzt (Stumpf et al., 1985, 9): 
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„AIex Reed arbeitet im Werbebiiro einer grofien Versicherungsgesellschaft. 
Obwohl er fiir die Werbeauslagen seiner Firma verantwortlich ist, sucht 
er stets den Rat seiner Mitarbeiter und Vorgesetzten, bevor er eine Ent- 
scheidung trifft, Normalerweise halt er eine Versammlung ab, in der sich 
jeder iiber die geplanten Werbemafinahmen dufiern kann, und man kommt 
dann zu einer Gruppenentscheidung, die er seinem Vorgesetzten zur Ge- 
nehmigung vorlegt. Alex macht es besondere Freude, sein Biiro als Team 
zu organisieren, in dem die einzelnen in alien Arbeitsabschnitten zusam- 
menarbeiten. “ 

Testanalyse: Der Fragebogen wurde Probanden vorgelegt, die Antworten - 
zur Ermittlung der Giitekriterien - den ublichen Analysen unterworfen. 



4.1.2 Zuordnung von Testmerkmal und Test-Item 

F in Test, der nach der klassischen Testtheorie konstruiert wird, erfaBt ein 
Merkmal durch Fragmentierung: Kleine Einheiten, die sogenannten Test-Items, 
sollen das Testmerkmal ,inhaltlich‘ reprasentieren. Fur die Beantwortung von 
Items werden Punkte gegeben: die Item-Scores. Die Summe dieser Punkte ist 
der Test-Score: quantitativer Reprasentant der Auspragung des Testmerkmals. 
Kasten 4.1-1 bietet eine Ubersicht. 



Kasten 4.1-1: 

Test-Item, Item-Score, Test-Score 



Test-Item: 


Kleinste Einheit in einem Test, Einzelaufgabe oder Einzelfrage 


Item-Score: 


Punktewert fur die Beantwortung eines Items, etwa 1 fiir .Richtig', 0 fiir 
, Falsch ’ 


Test-Score oder 
Summen-Seore: 


Summe der Item-Scores 



Mit dem Problem der Merkmals-Erfassung durch Items verschrankt sich eine 
andere Frage: die der Konstruktionsstrategien. 



4.1.3 Wahl einer Konstruktions strategic 

Welche Items sollen zu einem Test zusammengefaBt werden? Um diese Frage 
zu beantworten, empfehlen sich drei Entscheidungsstrategien (Goldberg, 1971; 
Hase & Goldberg, 1967): 

Die rationale Strategic besteht darin, von einem vorgegebenen theoretischen 
Konzept her Items zu formulieren und sie dann weiteren Prufungen zu unter- 
ziehen. 
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Beispiel: Horn (1983) konstruierte das ,Leistungspriif system’ (LPS), indent er 
einer Entwicklung von Items und einer Gruppierung der Subtests die Intelli- 
genztheorie von Thurstone zugrunde legte. 

Die extemale Strategic besteht darin, Items zu einem Test zusammenzustellen, 
die zwischen einer Kriteriumsgruppe und einer Kontrollgruppe unterscheiden. 
Die Aussagen des Tests ergeben sich aus dem Merkmal, das die Kriteriums- 
gruppe charakterisiert (und das die Kontrollgruppe nicht besitzt). Der Inhalt 
der Items selber ist demnach irrelevant. Auch unsinnige oder subtile Items 
bleiben in einer Skala, wenn sie Kriteriums- und Kontrollgruppe trennen. 

Beispiel: Konstruktion des Minnesota Multiphasic Personalty Inventory ‘ 
(MMPI: Dahlstrom, Welsh & Dahlstrom, 1972). Seine Autoren, Hathaway und 
McKinley, leg ten Gruppen von psychiatrisch Kranken ( Kriteriums gruppen) 
und Gruppen von Normalen (Kontr oil gruppen) Items vorZu einer Skala war- 
den solche Items zusammengefafit, deren Mittelwerte zwischen beiden Gruppen 
signifikante Unterschiede aufwiesen. 

Die internale Strategic besteht darin, dab ein Itemsatz (theoretisch oder atheo- 
retisch zusammengestellt) einer Stichprobe vorgelegt wird, dann solche Items 
zu einer Skala zusammengezogen werden, die eine statistische Prozedur als 
zusammengehorig erweist. Den Inhalt einer Skala bestimmt der Inhalt der 
Items, welche zur Skala zusammentreten. 

Beispiel: Konstruktion des , Freiburger Persbnlichkeitsinventars ‘ (FPI: Fah- 
renberg, Selg & Hampel, 1978; FPI und FPI-R: Fahrenberg, Hampel & Selg, 
1989). Ein Itempool wurde zwei Stichproben vorgelegt. Die Test-Scores wurden 
einer Faktorenanalyse unterzogen. Items, die auf demselben Faktor hoch lu- 
den, wurden zu einer Skala gruppiert. Benannt wurden die Skalen nach clem 
Inhalt Hirer Items. 

Vergleich: In empirischer Sicht hat sich ergeben: Alle drei Strategien fuhren 
zu ahnlichen Ergebnissen, zu Skalen, die brauchbare psychometrische Quali- 
taten aufweisen (Angleitner, 1976, 39; Hase & Goldberg, 1967; Jackson, D. N., 
1975). Aus theoretischer Sicht bleibt es jedoch unbefriedigend, Merkmale al- 
lein durch statistische Verfahren oder allein iiber Kriteriumsgruppen zu be- 
stimmen. Am Beginn einer Testkonstruktion sollte darum eine theoretische 
Abgrenzung stehen, ihr entspricht als Konstruktionsstrategie die rationale Vor- 
gehensweise 4 . Die , extemale 4 und die , internale 4 Strategic sollten danach der 
Prufung dienen, ob empirische Befunde die theoretischen Abgrenzungen stut- 
zen. 



4.1.4 Bestimmung der Testart 

In Wechselbeziehung zu den Konstruktionsstrategien und zur Konzeptualisie- 
rung des Testmerkmals steht eine dritte Frage: die Festlegung der Testart. 
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Zunachst geht es um pragmatische Fragen: 

Einzel- oder Gruppentest? 

Material: nur Papier und Bleistift oder auch apparative Ausstattungen? 

- Testlange? 

■ Fur welche Population ist der Test vorgesehen, wie lassen sich die ent- 
sprechenden Stichproben gewinnen? 

Struktur: Ein einziger Gesamttest oder Gliederung in Untertests? 

Schon solche pragmatischen Fragen sollten bei den Voriiberlegungen bedacht 
und entschieden werden. Im Hintergrund bleiben weitere Probleme zu losen: 
Bei der Frage nach Einzel- oder Gruppentests ist zu klaren, ob Messung 
in einer (partnerschaftlichen?) Zweiersituation zu gleichen Ergebnissen 
fiihrt wie Messung in einer (distanzierteren?) Gruppensituation. 

Bei der Frage nach Papier- oder Apparate-Tests ist zu klaren, ob sich 
Merkmale in beiden Medien auf gleiche Weise ,abbilden‘. LaBt sich etwa 
,technische Begabung 4 gleich gut messen mit Fragen, die auf dem Papier 
zu beantworten sind, wie mit entsprechenden Apparaten? 

Was die Testlange betrifft, so geht in diese Festlegung auch ein, ob man 
differenzierte oder nur globale MeBergebnisse erwartet. Der ,Reduzierte 
Wechsler-Intelligenztest 4 (WIP: Dahl, 1972) beschafft nicht soviele Infor- 
mationen wie der vollstandige ,Hamburg-Wechsler-Intelligenztest‘ (HA- 
WIE-R: Tewes, 1991), aber moglicherweise liefert er ausreichende Infor- 
mationen fur bestimmte Fragestellungen. 

Was die Population angeht, fur die ein Test vorgesehen wird, so gilt: Je 
spezieller die Selektion, je homogener die angezielte Gruppe, um so 
schwieriger die Ermittlung ausreichender Gutekriterien. Je globaler dage- 
gen die Population, je heterogener ihre Zusammensetzung (bezogen auf 
das Testmerkmal), um so leichter ist es, giinstige Gutekriterien zu gewin- 
nen. 

Wenn schlieBlich zu entscheiden ist, ob eine einzelne Gesamt- oder eine 
differenzierte Strukturaussage angestrebt wird, so liegt hier der Bezug 
zur Personlichkeitspsychologie besonders nahe; denn ,Strukturen‘ sollten 
nicht bloB pragmatisch konzipiert, sondern theoretisch begriindbar sein. 

Festzulegen, welche Testart konstmiert werden soil, verschrankt sich darum 
mit der (vorher beschriebenen) Aufgabe, zu entscheiden, ob das Testmerkmal 
durch eine theoretische Strategie abgegrenzt (definiert) und in statistisch-em- 
pirischen Strategien getestet werden soil, aber ebenso mit der gesamten Pro- 
blematik einer Merkmalsdefinition. 

Demgegeniiber nimmt sich der nachste Schritt weniger theoretisch aus - al- 
lerdings nur auf den ersten Blick. 





38 



4. Kapitel: AbriB der klassischen Testtheorie 



4.1.5 Itemgenerierung und Itemgestaltung 

Die Generierung von Items, aus denen sich ein Test aufbaut, erweist sich als 
eine sehr komplexe Arbeit (Aiken, 1982; Heidenreich, 1989; Klauer, 1987; 
Lienert & Raatz, 1994; Roidt & Haladyna, 1982). 

Am schwierigsten ist das Problem zu Ibsen, wie sich die Items streng theo- 
retiscli ableiten und regelhaft , very i elf ditig en‘ las sen. 

Hier sei nur eine Frage herausgegriffen, die der semantischen Gestaltung. Rut- 
ter (1978) gibt einen reichhaltigen Uberblick iiber die Vielfalt der Gestaltungs- 
moglichkeiten. 

Wir besprechen drei Aspekte: 

1. Aufgaben nach Antwortart (gebunden oder frei), 

2. Aufgaben nach Inhaltsumfang (einfach oder komplex), 

3. Aufgaben nach Darstellungsmedium (verbal oder nichtverbal). 



(1) Aufgaben nach Art der Antwort: 
Gebundene oder freie Items 



a) Gebundene Items 

Als gebunden bezeichnet man Aufgaben, die dem Probanden ein Problem stel- 
len, ihm zugleich aber verschiedene ,Losungen‘ anbieten. Ein Schema soli 
einen Uberblick geben (Heidenreich, 1989, 401). 



Gebundene Items 




Auswahlaufgaben 


Ordnungsaufgaben 




Richtig-falsch- 


Mehrfachwahl- 


Zuordnungs- 


Umordnungs- 




Aufgaben 


aufgaben 


aufgaben 


aufgaben 





Vorteile dieses Aufgabentyps sind die eindeutige Vergleichbarkeit der Antwor- 
ten und die Moglichkeit routinemaBiger Auswertung. Ein Nachteil liegt darin, 
daB Items dieser Art eher reaktives als kreatives Verhalten erfassen. 

Auswahlaufgaben : 

Richtig-Falsch- Aufgaben: Das Problem wird dargestellt, es werden zwei Ant- 
wortaltemativen geboten, nur eine ist richtig. 

Beispiel: Eine Quadratzahl wircl gebiklet, indem eine Zahl mit sich selbst 

multipliziert wird. - Richtig [ ]. Falsch [ ]. 

Mehrfachauswahl (multiple choice): Das Problem wird dargestellt, zugleich 
werden mehrere Antwortaltemativen angeboten, von denen nur eine richtig 
ist. 
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Beispiel: 1ST 70 1 , Satz-Erganzen: Quecksilber ist ein/eine... ? a) Metall, b) 
Mineral, c) Losung, cl) Gemisch, e) Legierung. (Richtige Antwort: a) 

HINWEIS: Die Mehrfachauswahl ist der dominierende Aufgabentypus heuti- 
ger Tests. 

Ordnungsaufgaben : 

Zuordnungsaufgaben: Problem und Losung einer Aufgabe werden vorgege- 
ben, der Proband soil beide einander zuordnen. 



Beispiel: Zu welcher Baumform gehoren ? Losung ankreuzen 



(a) Linde (1) Pyramidenbaum 

(b) Trauerweide (2) Schirmbaum 

(c) Akazie (3) Kugelbaum 

(d) Fichte (4) Hangebaum 



(a) 1 2 3 4 

(b) 12 3 4 

(c) 1 2 3 4 

(d) 12 3 4 



(Losungen: a = 3; b = 4; c = 2; d = 1) 

Umordnungsaufgaben: Elemente einer Aufgabe werden ungeordnet vorgege- 
ben, der Proband soil sie ordnen. 



Beispiel: Sucht Dame Hausfrau als junge Anstellung. 

( Losung : Junge Dame sucht Anstellung als Hausfrau .) 



b) Freie Items 

Als frei bezeichnet man Aufgaben, die das Problem vorgeben, aber keine , Lo- 
sung 1 anbieten. Der Proband muB die Losung selber formulieren. Wieder soil 
ein Schema einen Uberblick geben (Heidenreich. 1989, 401). 



Erganzungsaufgaben 



Freie Items 

Kurzantwort, Kurzaufsatz 



Der Vorteil dieses Aufgabentyps liegt darin, daB er die Erfassung einer groBen 
Verhaltensbreite erlaubt. Der Nachteil besteht darin, daB es schwer ist, unter- 
schiedliche Antworten gleich zu gewichten. 

Erganzungsaufgaben: Das Problem wird vorgegeben, der Proband muB die 
Frage kurz erganzen. Vielfaltige Formen sind moglich. 

Beispiele: 

- Wo liegt Agypten? 

Apfel verhd.lt sich zu Obst wie Weizen zu ...? 

Kurzantwort, Kurzaufsatz: Ein Problem wird vorgegeben, der Proband erhalt 
die Moglichkeit, langere Antworten zu geben. Auch hier sind vielerlei Lormen 
moglich. 



1 IST 70: „Intelligenz-Strukturtest 70” von Amthauer (1973). 
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Beispiele: 

Warum wdchst dieselbe Baumart in Finnland langsamer als in Italien? 
Ge stern trafich aufdem Marktplatz einen Schulkollegen, den ich zwanzig 
Jahre nicht gesehen hatte. Da... 



(2) Aufgaben nach dem Inhaltsumfang: 

Einfache oder komplexe Aufgaben 

Nach ihrem Inhalt behandeln Aufgaben einfache oder komplexe Probleme: 
Einfache Items setzen wenig Vorwissen voraus, erfordern eine einfache 
Stellungnahme. 

- Komplexe Items setzen mehr Vorwissen voraus, die Losungswege sind 
nicht so uberschaubar. 

Die Einteilung in , einfache und komplexe Items 4 ist stichprobenbezogen: So 
konnte die Erganzungsaufgabe, die eben zitiert wurde (Apfel verhdlt sicli zu 
Obst wie Weizen zu...?), fur Sonderschuler zu komplex, fur Gymnasiasten zu 
einfach sein. 

Fingerspitzengefiihl ist vonnoten, um Items von mittlerer Komplexitat zu for- 
mulieren: Items, die nicht so leicht sind, dab alle sie losen, aber auch nicht 
so schwer, dab keiner eine Losung findet. 



(3) Aufgaben nach dem Darstellungsmedium: 

Verbal oder nichtverbal 

Die Einteilung nach dem Darstellungsmedium klassifiziert die Items (vor al- 
lem) danach, ob sie in Worte gefabt oder nonverbal in Bildem und Verhal- 
tensprozessen dargestellt werden. 

Beispiele: Der , Figure Reasoning Test ‘ (FRT) gibt Aufgaben in symbolischer 
Kodierung ( Daniels , 1971) der HAWIE gibt sowohl verbale wie nonverbale 
Items vor 

Sprache ist wichtigstes Mittel der Verstandigung, doch setzt sie auch Barrieren. 
Nichtverbale Items sollen die Barrieren senken, konnen sie aber nicht besei- 
tigen. Denn solche Items bedurfen ihrerseits der sprachlichen Interpretation. 



4.2 Itemanalyse 

Die Itemanalyse soil priifen, ob die Test-Items der Test-Absicht entsprechen. 
Die ,Entsprechung‘ wird vor allem durch drei Giitekriterien gepriift: 
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- Schwierigkeitsindex (4.2.1), 

- Trennscharfe (4.2.2), 

- Homogenitat (4.2.3). 

Nach AbschluB der Itemanalyse ist zu entscheiden 

iiber die Selektion geeigneter Items (4.2.4). 



4.2.1 Schwierigkeitsindex 

Der Schwierigkeitsindex oder , Index der kategorialen Haufigkeiten 4 gibt an, 
wie groB der Anteil von Probanden ist, die ein Item ,richtig‘ beantwortet haben 
(Michel & Conrad, 1982, 20). 

Die Frage, die der Schwierigkeitsindex beantworten soil, ergibt sich aus dem 
differentialpsychologischen Ansatz der klassischen Testtheorie: Ein Test soil 
Probanden mit hoher Merkmalsauspragung trennen von Probanden mit ge- 
ringer Merkmalsauspragung. Zu einer solchen Unterscheidung tragen zwei 
Klassen von Items nichts bei: erstens solche Items, die von alien Probanden, 
zweitens solche, die von keinem Probanden , gelost 4 werden. Der Schwierig- 
keitsindex soli Items identifizieren, die ,brauchbarer‘ sind als diese zwei Klas- 
sen. 



Wir besprechen folgende Fragen: 

- Schwierigkeitsindex bei zweistufigen Antworten (4. 2. 1.1), 

- Schwierigkeitsindex bei mehrstufigen Antworten (4. 2. 1.2), 

- Erwiinschte Schwierigkeitsindizes (4. 2. 1.3), 

- Schwierigkeitsindex und andere Itemkennwerte (4. 2. 1.4). 



4.2. 1.1 Schwierigkeitsindex bei zweistufigen Antworten 

Bei Items, die eine zweistufige Antwort erfordem (Ja/Nein; Richtig/ Falsch), 
berechnet sich der Schwierigkeitsindex (p) als Quotient aus ,Zahl der Rich- 
tigloser 4 (N R ) und ,Zahl der Probanden 4 (N) (Lienert & Raatz, 1994, 74-78): 




Ein Item, das von vielen gelost wird, erhalt ein hohes p, es ist leicht. Ein 
Item, das von wenigen gelost wird, erhalt ein niedriges p, es ist schwer. Die 
semantische Bedeutung (leicht, schwer) und die quantitave Reprasentation 
(holier, niedriger Wert) sincl einander also gegensinnig zugeordnet. 

Haben nicht alle Probanden alle Items beantwortet, dann gibt N eine falsche 
BezugsgroBe an: p fallt zu niedrig aus (p => ,schwerer‘). Um diese Verzerrung 
aufzufangen, ist es moglich, in die Berechnung nur jene Probanden einzube- 
ziehen, die ein Item beantwortet haben (N B ): 
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Kasten 4.2-1 gibt (fiktive) Werte fiir ein Berechnungsbeispiel. Bei Item 1 steht 
im Nenner die Probandenzahl (N), bei Item 4 die Zahl der Probanden, die 
Item 4 bearbeitet haben (Nu). 

Pl = N R1 /N = 4/7 = .57 
p 4 = N R4 /N B4 = 4/5 = .80 



Kasten 4.2-1: 

Berechnung von Schwierigkeitsindizes bei zweistufigen Anworten 



1,0 

Nr 


: Item gelost, nicht gelost 
: Item nicht beantwortet 
: Zahl der Richtigloser 




N b : Zahl der Pbn. 

die ein Item beantwortet haben 
N : Zahl der Pbn. die beteiligt waren 










Items 




Pbn 


1 


2 3 


4 


5 6 7 8 


9 10 


1 


1 


1 


1 


1 


n 


2 


0 


0 


1 


1 


n 


3 


1 


0 


1 


1 


0 


4 


0 


0 


1 


1 


0 


5 


1 


0 


0 


1 


0 


6 


0 


0 


n 


1 


0 


1 


1 


1 


n 


1 


0 


N R 


4 


2 


4 


7 


0 


N B 


7 


7 


5 


1 


5 


N 


7 


7 


7 


7 


1 


p 


.57 


.28 


.80 


1.00 


0.00 



Zufallskorrektur 

Bei Leistungstests, deren Losungen zweistufig kodiert werden, kann Erraten 
erheblichen EinfluB auf die Zahl der Richtiglosungen ausiiben: Funfzig Pro- 
zent ,richtiger‘ Antworten konnen auf Raten zuriickgehen. Fiir diesen Fall hat 
Guilford (1936) eine Formel vorgeschlagen, die den ZufallseinfluB reduzieren 
soli. 



Pc = 



Nr - 



N f 
m - 1 



N 



Neu sind die Terme: 

p c ; Korrigierter Schwierigkeitsindex, 

N F : Falschloser, 

m : Zahl der Altemativen in einer Aufgabe. 
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(Bei Ja-Nein-Aufgaben gibt es zwei Alternativen, bei Mehrfachauswahl 
kann es beliebig viele Alternativen geben.) 

Aus Kasten 4.2-1 sei der Index von Item 1 in dieser Weise ,korrigiert‘, die 
Zahl der Falschloser (NF) betragt 3, die Zahl der Alternativen (m) betrage 4: 



Pc, 1= y - = 0.43 

Der korrigierte Schwierigkeitsindex fur Item 1 (0.43 gegeniiber 0.57) besagt, 
dab Item 1 schwieriger ist, als es zunachst erscheint, jedenfalls dann, wenn 
man eine Zufallskorrektur gelten laBt. 



4.2. 1.2 Schwierigkeitsindex bei mehrstufigen Antworten 

Der Schwierigkeitsindex p ist definiert fur zweistufige Antworten. Sehen Item- 
Antworten mehrere Abstufungen vor, etwa Werte von 0 bis 10, dann ist p zur 
Angabe der ,Schwierigkeit‘ nicht definiert. Um dennoch Angaben zu gewin- 
nen, kann man unterschiedlich vorgehen: 

- Man kann die Item-Scores an einem Kriterium dichotomisieren und gibt 
den Werten unterhalb eine 0, den Werten oberhalb eine 1. Auf diese Weise 
kann man das , zweistufige 4 p berechnen. Allerdings verzichtet man auf 
Differenzierungen, die in den Abstufungen enthalten sind. 

Man berechnet Mittelwert und Streuung je Item und verwendet den Mit- 
telwert als Aquivalent zu p. (p ist seinerseits ein Mittelwert.) Allerdings 
ist ein Mittelwert ohne gleichzeitige Beachtung des StreuungsmaBes wenig 
aussagekraftig. 

Man berechnet einen eigenen Wertfiirp: Er sei , mehrstufiges p ‘ genannt, 
sein Kiirzel sei ,p m ‘. 

Um den dritten Vorschlag, die Berechnung eines , mehrstufigen p‘ (p m ) zu 
demonstrieren, sei von einem Beispiel ausgegangen. 

Beispiel: Beirn HAWIE, Untertest ,Figuren-Legen‘ (FL), kann man zur Auf- 
gabe 3 (eine Eland zusammenlegen) 0 bis 10 Punkte erreichen. 10 Probanden 
seien mil clem FL getestet worclen. Wieviel Punkte konnen alle zusammen ma- 
ximal erreichen? 10 Probanden konnen maximal 10 x 10 Punkte = 100 Punkte 
erreichen. Tatsdchlich seien weniger Punkte erreicht worclen: 

- 3 Probanden erreichen 4 Punkte, zusammen 12; 

4 Probanden erreichen 6 Punkte, zusammen 24; 

- 3 Probanden erreichen 9 Punkte, zusammen 27. 

Zusammen erreichen die 10 Probanden 63 Punkte. Es stehen zur Berechnung 
demnach zur Verfugung 

erreiclite Wertpunkte (hier: 63) unci 

- erreiclibare Wertpunkte (hier: 100). 
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In Analogic zum zweistufigen Schwierigkeitsindex laBt sich ein Index fur 
mehrstufige Antworten (p m ) bestimmen, der die beiden genannten Werte in 
Beziehung setzt: 

Erreichte Wertpunkte 
[ >m Erreichbare Wertpunkte 

63 n 

Pm ~ 100 _0 ' 63 

Von drei Autoren liegen Vorschlage vor, p m in der beschriebenen Weise zu 
berechnen: von Dahl (1971) sowie von Wagner und Baumgartel (1978). Zwar 
unterscheiden sich die Vorschlage im einzelnen, doch laufen sie auf gleiche 
Ergebnisse hinaus: 

XA XA 

Pm ~ YY ~ N ■ Y 

^max iy ^max 

Es bedeuten: 

p m : Schwierigkeitsindex fur mehrstufige Items, 

X : Item-Score, 

X m ax : Maximaler Item-Score (X lauft von 0 bis X max ), 

XX max : Summe von X max iiber alle Probanden, 

als Aquivalent gilt: N • X max . 

Kasten 4.2-2 gibt (fiktive) Ergebnisvektoren fur zwei Items. 



Kasten 4.2-2: 

Schwierigkeitsindex bei mehrstufigen Itms 



X : Item-Score (X reicht von 0 bis 5) 
XX : Test-Score 


fi f 2 

P„, 


: Losungs-Haufigkeit bei Item 1 und Item 2 
: Schwierigkeitsindex fur mehrstufige Items 


X => 


0 1 


2 


3 


4 


5 


sx Pm 


Item 1 f. 


1 3 


2 


5 


2 


1 


35 0.50 


2 f 2 


7 0 


0 


0 


0 


7 


35 0.50 



Mit den Werten aus Kasten 4.2-2 sei p m fur Item 1 und Item 2 berechnet: 
N, = N 2 = 14 

X max i — X max 2 — 5 

XX! = 1x0 + 3x1 + 2x2 + 5x3 + 2x4 + 1x5 = 35 

XX 2 = 7x0 + 0x1 + 0x2 + 0x3 + 0x4 + 7x5 = 35 

£X max i = 14 x 5 = 70 = X X max 2 

Die Schwierigkeitsindizes fur Item 1 und Item 2 fallen gleich aus: 

Pm,i = 35/70 = 0.50 = p m , 2 

Einwand: Nun lajlt sicli fol gender Einwand erheben: Die zwei Items nehmen 
clenselben Wert fur p m an, obwohl Hire Punkteverteilungen erheblich divergie- 
ren. Zwei Items mit unterschiedlichen Verteilungen haben unterschiedliche Va- 
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rianzen. Nun gilt aber: „Je grofier die Itemvarianz, urn so unterschiedlicher 
reagieren die Personen auf das Item und um so besser kann man mit ihm 
differenzieren“ (Kranz, 1981, 54). Haben demnach zwei Items den gleichen 
Wert fiir p m , aber unterschiedliche Varianzen, dann differenziert das Item mit 
der grofieren Varianz eindeutiger als das Item mit der geringeren Varianz. 

Diesen Unterschied kann p m nicht wiedergeben. Der Grund liegt darin, daB 
in die Berechnung nur der Mittelwert eingeht, nicht die Varianz. (Bei dem 
zweistufigen p ist mit dem Mittelwert, p, die Streuung mitbestimmt.) 

Die Varianzen (s‘) in dem Beispiel divergieren aber erheblich: 

s 2 1 = 1.82 *6.25 = s 2 2 

Ergdnzungsvorschlag: Zu wunschen ware eine Berechnung, in welche die 
Unterschiede der Varianzen eingingen. Eine Formel, welche die gewiinschte 
Unterscheidung ermoglicht, konnte bei den Vorschlagen von Dahl, Wagner 
und Baumgartel ansetzen, aber - in Analogic zur Bildung der Varianz - statt 
der einfachen Punktwerte ihre Quadrate einbeziehen. Sie konnte lauten: 

E X 2 

Pm - y y2 

^ ^ max 

Der Erganzungsvorschlag sei veranschaulicht an den Daten von Kasten 4.2-2: 
EX 2 ! = 1 (0 2 ) + 3 (l 2 ) + 2 (2 2 ) + 5 (3 2 ) + 2 (4 2 ) + 1 (5 2 ) 

= 113 
EX 2 , = 175 

£X 2 max j = 14 (5 2 ) = 350 = E 2 max 2 

= 113/350 = 0.32 

D n \ = 175/350 = 0.50 

rm,2 

Die Schwierigkeitsindizes fiir Item 1 und Item 2 divergieren: 



Pm.1 = 0.32 * 0.50 = p m , 2 

Die Erganzungsformel wurde zu folgenden Resultaten fiihren: 

- Je mehr Probanden den maximalen Item-Score erreichen (X max ), desto 

mehr nahert sich p m dem Wert 1 (leichte Items). 

- Je mehr Probanden den minimalen Item-Score erhalten (0), desto mehr 

nahert sich p m dem Wert 0 (schwere Items). 

- Wenn die Varianz von Item i ungleich ist der Varianz von Item j, dann 

folgt: p mj ist ungleich p mJ . 

Bei maximaler Varianz eines Items erreicht p m den Wert von 0.50 - analog 
dem Schwierigkeitsindex p fiir dichotome Daten. 

- Die Formel enthalt den zweistufigen Schwierigkeitsindex als Sonderfall, 

namlich als den Fall, in dem gilt X max = 1. Insofem sind beide Indizes 
ineinander konvertierbar. 
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4. Kapitel: AbriB der klassischen Testtheorie 



4.2. 1.3 Erwiinschte Schwierigkeitsindizes 

Welche Schwierigkeitsindizes sind in einem Test erwiinscht? Die Frage laBt 
sich nur beantworten in Zusammenhang mit Trennscharfe und Homogenitat. 
Flier darum nur eine voriaufige Antwort! 

Sclinelligkeitstests (Speed tests): Schnelligkeitstests sind solche Verfahren, bei 
denen die Durchfuhrungszeit begrenzt ist. Die Aufgaben sollten leicht sein (p 
also hoch liegen). , Starke 4 Probanden losen viele, ,schwache‘ losen wenige 
Items. Die Feistung wil'd gemessen durch die Zahl der Aufgaben, die in einer 
bestimmten Zeit gelost werden. 

Niveau-Tests (power tests): Bei reinen Niveau-Tests ist die Durchfuhrungszeit 
nicht begrenzt. Ein Proband kann solange arbeiten, bis er die Items lost oder 
bis er aufgibt. 

Bei dieser Klasse von Tests werden die Items nach aufsteigender Schwierigkeit 
angeordnet: Auf leichtere Items folgen schwerere. Im Idealfall gibt die lau- 
fende Nummer des Items, das der Proband als letztes zu bearbeiten vermag, 
das Feistungsniveau an, bis zu dem der Proband vordringt. Die Feistung wil'd 
allein durch die Zahl der gelosten Items gemessen. 

Mischtests: Die meisten Tests fordem beide Anteile: Schnelligkeit und Ni- 
veauleistung. Darum werden die Items in aufsteigender Schwierigkeit ange- 
ordnet (die Schwierigkeiten bleiben in einem mittleren Bereich), und die 
Durchfuhrungszeit wil'd begrenzt. Die Feistung wird gemessen durch die Zahl 
der in begrenzter Zeit gelosten Items. 



4.2. 1.4 Schwierigkeitsindex und andere Itemkennwerte 

Der Schwierigkeitsindex .bccintluBf die anderen Itemkennwerte: 

Hat ein Item ein mittleres p (um 0.50), dann ermoglicht dies hohe Trenn- 
scharfen, verbiirgt sie aber nicht. 

Streut p innerhalb eines Testes weit (z.B. von p = 0.10 bis p = 0.90), dann 
sinkt die Homogenitat im Sinne von Interkorrelation. 

Komplementar gilt: Variiert p innerhalb eines Testes in engen Grenzen 
(z.B. zwischen 0.20 und 0.30 oder zwischen 0.65 und 0.75), dann ermog- 
licht dies hohe Homogenitat im Sinne von Interkorrelation (verbiirgt sie 
aber nicht). 

■ Allein von der Theorie her betrachtet, ware ein p = 0.50 der ideale 
Schwierigkeitsindex. 

Hatten aber alle Items eines Tests den Wert p = 0.50 und waren auch bei 
alien Items jeweils dieselben Personen die Foser und dieselben Personen 
die Nichtloser, dann zerfiele die Stichprobe immer in zwei Klassen: in 
Foser und Nichtloser. Dieses Ergebnis widersprache der Absicht, zwischen 
Probanden vielfaltig zu differenzieren bzw. eine Skala zu erstellen, die 
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mehr als zwei Auspragungen miBt. 

Aus praktischem Interesse wahlt man darum sowohl Items mit einem 
p = 0.50 als auch Items mit 0.50 >p <0.50: Man lockert die Homogenitat 
auf zugunsten der Differenzierungsvielfalt. 

Schwierigkeitsindizes konnen mit den Stichproben wechseln, an denen sie 
erhoben werden. In diesem Phanomen zeigt sich die sogenannte Stichpro- 
benabhangigkeit von Ergebnissen der klassischen Testtheorie. 



4.2.2 Trennscharfe 

Die Trennscharfe ist der wichtigste Itemkennwert, sie klart die Position eines 
Items im Verband der anderen Items, indem sie einen Index liefert, der angibt, 
wie weit die ,Menge der Loser 4 iiber alle Items hinweg identisch bleibt. 

Diesen Index soil der Vergleich mit einem Kriterium erbringen. Dies kann 
ein auBeres oder ein inneres Kriterium sein. 

Beispiel fur ein auBeres Kriterium sei das Urteil zweier Schreinermeister 
A und B iiber ihre Lehrlinge. Seien die , Items 4 Werkstucke, welche die 
Lehrlinge anfertigen. 

Jeder Lehrling werde von Meister A danach eingestuft, wie ,kunstfertig‘ 
er ist. 

=> Das Werkstuck jedes Lehrlings werde von Meister B danach bewertet, 
wie ,kunstgerecht 4 es ist. 

Als trennscharf erweisen sich dann jene Werkstucke (Items), bei denen 
beide Urteilsreihen iibereinstimmen. 

Beispiel fur ein inneres Kriterium sei der Test-Score. Von jedem Pro- 
banden stehen zwei Werte zur Verfiigung: sein Item-Score und sein Test- 
Score. Diese beiden Werte werden verglichen. 

In der Regel wird die Trennscharfe an dem inneren Kriterium, dem Test-Score, 
ermittelt. Vereinfacht laBt sich darum die Trennscharfe defmieren als die 
(biseiielle) Korrelation zwischen Item- und Test-Score. Daher lautet das 
Kiirzel fur die Trennscharfe auch r it : Korrelation (r) zwischen Item (i) und 
Test-Score (t) 

Weil die Trennscharfe sich bestimmt durch Korrelation mit einem Kriterium, 
ist eine Ahnlichkeit zur kriterienbezogenen Validitat gegeben (S. 98). Wir 



besprechen folgende Fragen: 

- Berechnung der Trennscharfe (4.2.2. 1), 

- Teil-Ganz-Korrektur (4. 2.2.2), 

- Konvergente und diskriminante Trennscharfe (4.2.2.3), 

- Trennscharfe und andere Itemkennwerte (4. 2. 2. 4). 
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4. Kapitel: AbriB der klassischen Testtheorie 



4.2.2. 1 Berechnung der Trennscharfe 

Berechnen laBt sich der Zusammenhang zwischen Einzelitem und Summen- 
score auf vielfaltige Weise, z.B. durch 

- biserielle Korrelation, 

- Vier-Felder-Korrelation, 

- Produkt-Moment-Korrelation, 

- Kontingenzkoeffizient. 

Hier sei die Ermittlung veranschaulicht an zwei Beispielen: an biserieller und 
Produkt-Moment-Korrelation. 



Trennscharfe als punktbiserielle Korrelation 

Fur dichotome Item-Scores wird die Trennscharfe in der Regel als biserielle 
Korrelation bestimmt. Zur Verfiigung stehen 

- der punktbiserielle Korrelationskoeffizient fur echt alternative Daten 
(z. B. Mann/Frau; schwanger/nicht schwanger) und 
der biserielle Korrelationskoeffizient fur kiinstlich alternative Daten (z. B. 
MeBwerte ober-/unterhalb des Median). 

Wir betrachten die Itemlosungen (0, 1) als echte Alternativen und berechnen 
die punktbiserielle Korrelation. Kasten 4.2-3 gibt eine Matrix vor. 



Kasten 4.2-3: 

Berechnung der nennscharfe als punktbiserielle Korrelation 



Zu den Termen: vgl. den Text zur Korrelationsformel (I). 

+ hinter Test-Score: Proband hat Item 1 richtig beantwortet. 
hinter Test-Score: Proband hat Item 1 falsch beantwortet. 


Pbn 


1 


2 


Items 
3 4 


5 


6 


Test-Score 


1 


0 


0 


1 


l 


L 


L 


4 


- 


2 


1 


1 


1 


0 


0 


0 


3 


+ 


3 


1 


1 


1 


0 


0 


0 


0 


- 


4 


1 


1 


1 


1 


1 


1 


6 


+ 


5 


1 


0 


0 


1 


1 


1 


4 


+ 


6 


1 


1 


0 


0 


1 


1 


4 


+ 


1 


0 


1 


1 


0 


0 


1 


3 


- 


8 


1 


0 


0 


0 


0 


1 


2 


+ 


9 


1 


0 


1 


0 


1 


0 


3 


+ 


10 


1 


1 


1 


1 


1 


0 


5 


+ 


11 


1 


0 


1 


1 


1 


0 


4 


+ 


12 


1 


1 


1 


1 


1 


1 


6 


+ 


13 


1 


0 


1 


1 


1 


0 


4 


+ 
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Berechnet sei die Trennscharfe fur Item 1. Die Formel zur Berechnung der 
punktbiseriellen Korrelation (p pbis ) lautet: 



(I) 



r pbis ~ 



M r -M x 

Sx 




Es bedeuten: 

M x = Mittelwert der Test-Scores X, hier: 3.69, 

M r = Mittelwert des Test-Scores der Probanden, die jenes Item richtig 
gelost haben, dessen Trennscharfe berechnet wird, 
hier fur Item 1: (3 + 6 + 4. .. + 6 + 4)/10 = 4.10, 
s x = Standardabweichung der Test-Scores X, hier: 1.69, 
p = Schwierigkeitsindex des Items, hier fur pj= 0.77, 
q = 1 - p, hier fur qj = 0.23. 

Einsetzen fur Item 1: 



4.10-3.69 [ 0/77 

r pbi S .i = 1.69 '\j 0.23 



= 0.44 



Item 1 hat nach dieser Berechnung eine mittelhohe Trennscharfe von r it = 0.44. 



Trennscharfe als Produkt-Moment-Korrelation 

Sind die Itemantworten nicht dichotom, sondem mehrfach abgestuft, so emp- 
fiehlt sich eine Berechnung, die dieser Vielfalt gerecht wird, zum Beispiel die 
Berechnung einer Produkt-Moment-Korrelation. 

Die Produkt-Moment-Korrelation setz.t voraus, dafi die Item-Scores Inter- 
vallniveau erreichen und die Beziehung zwischen Item-Score unci Test-Sco- 
re linear ist. 

Unter dieser Voraussetzung geben wir eine Zahlenmatrix vor in Kasten 4.2-4. 
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4. Kapitel: AbriB der klassischen Testtheorie 



Kasten 4.2-4: 

Berechnung der nennscharfe als Produkt-Moment-Korrelation 



: 


Zu den Termen: vgl. den Text zur 
EX: Summe aller Scores von Item 
EY: Summe aller Test-Scores 


Korrelationsformel (II) 

1 


Pbn 


1 


Items 
2 3 4 


5 


6 




Test-Score 


1 


4 


4 


3 


4 


5 


4 




24 


2 


3 


2 


2 


3 


2 


1 




13 


3 


1 


2 


1 


2 


1 


2 




9 


4 


5 


4 


5 


3 


4 


5 




26 


5 


4 


3 


3 


3 


5 


3 




21 


6 


3 


4 


2 


1 


5 


4 




19 


1 


1 


2 


1 


2 


2 


1 




9 


8 


1 


0 


0 


0 


0 


1 




2 


9 


3 


1 


3 


2 


2 


1 




12 


10 


4 


5 


4 


3 


3 


4 




23 


11 


4 


3 


3 


4 


5 


4 




23 


12 


5 


4 


3 


4 


5 


3 




24 


13 


3 


2 


3 


3 


3 


2 




16 




EX = 41 












EY = 


= 221 



Fur die Berechnung sei die Formel benutzt: 



(m N-Ixy-JX-ZY 

V V [YSY 2 - (LX) 2 ] [N1Y 2 - (EY) 2 ] 

Es bedeuten: 

N = Zahl der Probanden, hier: 13 

EX =SummeX(Item-Score),hierfurIteml : =4+3 + ...+5 +3 =41 

EY = Summe Y (Test-Score), hier: = 24+13+ . . + 24 +16 = 221 
EX 2 = Quadratsumme X, hier fur Item 1: = 4 2 + 3 2 + . . . + 5 2 + i 3 2 = 153 
EY 2 = Quadratsumme Y (Test-Score), hier: = 24 2 + 13 2 ... + 24 2 + 16 2 
= 4423 

EXY = Produktsumme XY, hier: = 4 . 24 + 3 . 13 + . . . 5 . 24 + 3 . 16 
= 814 



Einsetzen fur Item 1: 



13-814-41 -221 

r “’ 1 ~ V [13 - 153 — 42 2 ] [13 ■ 4423 - 22 1 2 ] 



0.93 



Zwischen Item 1 und dem Test-Score ergibt sich eine Trennscharfe von r it , , 
= 0.93, ein sehr hoher Wert (beruhend auf fiktiven Daten!). 
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4.2.2.2 Teil-Ganz-Korrektur 

Wil'd die Trennscharfe berechnet, wie geschehen, geht jedes Item zweimal in 
die Berechnung ein: einmal als Item-Score und einmal als Teil des Test-Scores. 

Beispiel aus Kasten 4.2-4: Der Test-Score des Pb 1 setzt sich zusammen aus 
seinen Item-Scores: 4+4+3+4+5+4=24. Der Test-Score 24 enthalt demnach 
als Summanden auch den Score 4 von Item 1. 

Um diese Selbstkorrelation zu eliminieren, zieht man den Item-Score jeweils 
von ,seinem‘ Test-Score ab und korreliert den ,korrigierten‘ Test-Score mit 
dem Item. Ein Beispiel gibt Kasten 4.2-5 mit den Werten von Kasten 4.2-4. 



Kasten 4.2-5: 

Berechnung der Rennscharfe: Teil-Ganz-Korrektur 

(vgl. Text) 



Die Teil-Ganz-Korrektur bezieht sich auf Item 1. 
Test-Score der Item-Score 1 abgezogen, dann eine 
2X : Summe der Item-Scores von Item 1. 

2Y : Summe des korrigierten Test-Scores. 


Die ,Korrektur‘ besteht darin, dab vom 
neue Korrelation berechnet wird. 




Item-Score 


Test-Score 




Test-Score 


Pbn 


Item 1 


Unkorrigiert 


Korrektur 


Korrigiert 


1 


4 


24 


2 4-4 


20 


2 


3 


13 


13-3 


10 


3 


1 


9 


9-1 


8 


4 


5 


26 


26-5 


21 


5 


4 


21 


2 1-4 


17 


6 


3 


19 


19-3 


16 


7 


1 


9 


9-1 


8 


8 


1 


2 


2-1 


1 


9 


3 


12 


12-3 


9 


10 


4 


23 


2 3-4 


19 


11 


4 


23 


2 3-4 


19 


12 


5 


24 


24-5 


19 


13 


3 


16 


16-3 


13 




II 

X 

w 






M 

X 

II 

oo 

o 



Fur Item 1 ist einzusetzen: 



r it , corr, 1 



13-661-41 • 180 

V[13 • 153 - 41 2 ] [13 • 2948 - 180 2 ] 



0.89 



Es ergibt sich ein Koeffizient von r itcorr a = 0.89. Hier zeigt sich: Die Selbst- 
korrelation tragt in dem fiktiven Beispiel nur unerheblich zu dem (unkorri- 
gierten) Wert von r it ] = 0.93 bei. 

Beispiel: Den Effekt einer ,Korrektur’ veranschaulicht Kasten 4.2-6. Die Da- 
ten stammen aus einer Vorlage des Giejien-Tests. Beantwortet haben ihn 36 
Studierende; es handelt sich demnach nur um ein Demonstrationsbeispiel. 
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Kasten 4.2-6: 
Trennscharfe 



Unkorrigiert: 


r„ - 


Korrigiert: r U co „ 




Giejlen-Test 


Item 


r n 


^ it. cor r 


Skala 1: 


9 


.49 


.29 




16 


.75 


.58 


Negative 


23 


.74 


.55 


versus 


27 


.20 


.00 


positive soziale 


33 


.77 


.62 


Resonanz 


37 


.67 


.46 



4.2.2.3 Konvergente und diskriminante Trennscharfe 

Die Trennscharfe dient dazu, Items zu identifizieren, die alle (hoch) mit dem- 
selben Kriterium korrelieren. Dies soil sichem, daB alle Items dasselbe Merk- 
mal erfassen. Ein Problem erwachst daraus, daB so gut wie kein Item nur ein 
einziges Merkmal erfaBt, vielmehr jedes auch andere Merkmalsanteile ein- 
schlieBt. 

Beispiel: ,Konzentration’ wercle gemessen mit Rechenaufgaben, etwa denen 
des ,Konzentrations-Leistungs-Tests‘ (KLT, von Dtiker & Lienert, 1965). Re- 
chenaufgaben jedoch provozieren nicht nur Konzentration, sondern auch an- 
dere Fdhigkeiten, im KLT etwa auch ,Rechenschnelligkeit‘ , ,Geschick im Um- 
gang mit Zahlen ‘ ,Kenntnis von Rechentricks ‘ (Sommer, 1973). 

Ein Test-Autor sucht Items, die den Hauptbezug zur eigenen Skala einschlieB- 
en. Wie weit dies zutrifft, darLibcr kann die Berechnung konvergenter und 
diskriminanter Trennscharfen Angaben machen. 

Das Vorgehen besteht darin, den Item-Score zunachst mit seinem eigenen Test- 
Score zu korrelieren (konvergente Trennscharfe), dann aber auch mit den Test- 
Scores anderer Skalen, zu denen eine Verbindung vermutet wird (diskriminante 
Trennscharfe). 

Beispiel: Ein Intelligenztest gliedere sich in mehrere Untertests. Die Items des 
Untertests 1 sollen vor allem mit clem Test-Score 1 hoch korrelieren, die Items 
des Untertests 2 mit clem Test-Score 2. Dariiber hinaus lassen sich die Items 
cles Untertests 1 mit clem Test-Score 2 korrelieren, die Items cles Untertests 2 
mit clem Test-Score 1. - Erwartet wircl jetzt, dap bei clen Items cler Skala 1 
die Korrelation zu Skala 1 holier ausfdllt als die zu Skala 2 ocler irgend einer 
anderen Skala: Die konvergente Trennscharfe soil holier ausfallen als die 
diskriminante Trennscharfe. - 

Kasten 4.2-7 gibt ein Demonstrationsbeispiel (mit den Daten des Kastens 
4.2-6). 
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Kasten 4.2-7: 

Trennscharfen: Konvergent r it / Diskriminant r iti dis 



Gielien-Test 


Item 


B 


ri„ dis : Skala 2-5 
Fett: Koeffizient zu hoch 


i 


2 


3 


4 


5 


Skala 1: 


9 


29 


-08 


01 


-46 


-42 




16 


58 


09 


-14 


02 


-29 


Negative 


23 


55 


00 


25 


-47 


-07 


versus 


27 


00 


22 


-02 


-22 


-09 


positive soziale 


33 


62 


-26 


10 


-41 


-14 


Resonanz 


37 


46 


-06 


-15 


-01 


-32 



Koeffizienten der Kiirze halber ohne Dezimalpunkt 



Berechnet man konvergente und diskriminante Trennscharfen, dann ergibt sich 
ein Analogon zu einem faktorenanalytischen Ansatz. Die Matrix konvergenter 
und diskriminanter Trennscharfen laBt sich interpretieren analog zu einer Fak- 
torenmatrix. Eine Ubersicht solcher Art gibt beispielsweise der , Hamburger 
Personlichkeitsfragebogen fur Ki nder (HAPEF-K) 4 (Wagner & Baumgartel, 
1978). 



Kasten 4.2-8: 

F aktorenmatrix : 

Analogon zu einer Matrix konvergenter und diskriminanter Trennscharfen 

Kursiv undfett: Ladung auf eigenem Faktor I/eigener Skala 1 

Nichtkursiv: Ladung auf fremden Faktoren/Skalen 

Fett und nichtkursiv: Ladung zu hoch 
h 2 : Kommunalitat 2 



Gielien-Test 


Item 


Faktoren 






/ 


II 


It 


IV 


V 


h 2 


Skala 1: 


9 


-48 


-32 


02 


14 


05 






16 


-05 


-73 


17 


-24 


12 




Negative 


23 


-57 


-23 


18 


05 


47 


64 


versus 


27 


-35 


23 


44 


-07 


-13 


40 


positive soziale 


33 


-48 


-44 


-16 


-03 


42 


63 


Resonanz 


37 


-04 


-76 


00 


-26 


11 


67 



Ladungen der Kiirze halber ohne Dezimalpunkt 



Umgekehrt kann darum auch eine Faktorenanalyse der Items die Dienste einer 
Berechnung von Trennscharfen ubemehmen (vgl. die Matrix der Faktorenla- 
dungen im ,GieBen-Test‘: Beckmann, Brahler & Richter, 1990, 117). Aller- 
dings schlieBt die ltemanalyse einen Vorzug ein: Sie notigt dazu, im vorhinein 
theoretisch festzulegen, welche Merkmale ein Test erfassen soli, welche Items 
darum zu einer (Sub-)Skala zusammengefaBt werden. Bei der (explorativen) 
Faktorenanalyse kann eine solche Zuordnung von Items und Skala offen blei- 

2 Kommunalifat: Summe der quadrierten Faktwenladungen. „Aufgeklarter” Anteil der Gesamtvarianz je Variable (hier: 
je Item). 
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ben - es ist moglich, erst im nachhinein zu bestimmen, welche Items zu 
einer Skala gehoren sollen und dann aus dem Inhalt der Skalen-Items das 
Merkmal zu ,benennen‘, das die Skala erfaBt. - Kasten 4.2-8 gibt ein Demon- 
strationsbeispiel (emeut mit den Daten des Kastens 4.2-6). 

Die Analogie besteht darin, daB beide Matrizen Zusammenhange erkennen 
lassen zwischen einer Skala und anderen Skalen. 



4.2.2.4 Trennscharfe und andere Itemkennwerte 

Die Trennscharfe hangt sowohl mit dem Schwierigkeitsindex wie auch mit 
der Interkorrelation der Items zusammen. 

Was den Schwierigkeitsindex angeht. so ermoglicht, rein theoretisch. jeder 
Wert von p eine Trennscharfe von 1, ausgenommen die Werte p=l und 
p=0. Aber nicht jede Kombination von p und r ist gleich effektiv. Am 
effizientesten im Sinne einer Differenzierung zwischen den Probanden ist 
die Kombination von p = 0.50 und r it = 1, weil in diesem Falle die meisten 
Differenziemngen zwischen den Probanden moglich sind (Lienert, 1969, 
126; Lienert & Raatz, 1994, 58). 

Empirisch ergibt sich ein Zusammenhang zwischen p und r it , der sich als 
umgekehrtes U darstellt: Niedrigem oder hohem p entspricht ein niedriges 
r it , mittlerem p ein hohes r it . 

- Was die Interkorrelation der Items angeht, so steigt die Trennscharfe, 
wenn Items hoch miteinander korrelieren; sie fallt, wenn Items niedrig 
miteinander korrelieren. Denn bei hoher Interkorrelation der Items ist es 
wahrscheinlicher, ja zwingend, daB, wer Item i lost, auch Item j lost und 
so einen hohen Test-Score erreicht. Bei niedriger Interkorrelation ist es 
weniger wahrscheinlich, daB, wer Item i lost, auch Item j lost und so einen 
hohen Test-Score erhalt. 



4.2.3 Homogenitdt 

Die Items eines Tests sollen dasselbe Merkmal erfassen. Diesem Ziel setzt die 
Eigenart der Items eine Grenze. Items erfassen unterschiedliche Merkmalsfa- 
cetten. In diese Verschiedenheit gehen jedoch Schnittmengen gleicher (uber- 
lappender) Facetten mit ein. Das MaB fur diese Ubereinstimmung laBt sich 
als Homogenitat bezeichnen. 

Zwar hat sich in der klassischen Testtheorie keine einheitliche Auffassung des 
Begriffes Homogenitat durchgesetzt. In alien Deutungen soli Homogenitat aber 
den Grad angeben, in dem die Items eines Tests dieselbe Eigenschaft messen 
(Fischer, 1974, 127). 

Es seien vier Konzepte besprochen: 




4.2 Itemanalyse 



55 



- Homogenitat im Sinne einer Interkorrelation (4. 2.3.1), 

- Homogenitat im Sinne der Faktorenanalyse (4. 2. 3. 2), 

- Homogenitat im Sinne einer Guttman-Skala (4. 2. 3. 3), 

- Homogenitat im Sinne des Rasch-Modells (4. 2. 3.4). 



Die zwei ersten Konzepte bleiben im Rahmen der klassischen Testtheorie, die 
zwei letzten uberschreiten ihn (Fischer, 1974; Dieterich, 1973, 162). 



4.2.3. 1 Homogenitat als Interkorrelation der Items 

Die Trennscharfe eines Items schlieBt einen Bezug zum Gesamttest ein: den 
Vergleich aller Items mit demselben Kriterium. Die Homogenitat als Interkor- 
relation der Items stellt ebenfalls einen Bezug zum Gesamttest her. Den Ge- 
samtbezug reprasentiert aber nicht ein Kriterium, sondern der direkte Vergleich 
aller Items miteinander. 

Das AusmaB der Interkorrelation kann je nach Testziel variieren. Man spricht 
von homogenen und von heterogenen Tests: 

- Homogen ist ein Test, dessen Items (vergleichsweise) hoch miteinander 
korrelieren. Inhaltlich bedeutet dies, daB die Items (nicht identische, aber) 
ahnliche Merkmalsfacetten reprasentieren. 

Heterogen ist ein Test, dessen Items (vergleichsweise) niedrig miteinander 
korrelieren. Inhaltlich besagt dies, daB die unterschiedlichen Items unter- 
schiedliche Merkmalsfacetten erfassen. 

Den Grad der Homogenitat (H) gibt die Interkorrelation an. Ein Index laBt 
sich sowohl fur jedes Item als auch fur den Gesamttest ermitteln. (Der Ho- 
mogenitatsindex fur den Gesamttest nahert sich dem Charakter eines Reliabi- 
litatskoeffizienten: vgl. S. 70.) 

Kasten 4.2-9 veranschaulicht das Konzept an einem Beispiel. Die Einzelindi- 
zes erstrecken sich von H = -0.062 bis H = 0.194. Ebenso wie der Gesamtin- 
dex von H = 0.091 zeigen sie einen sehr heterogenen Test an. 



Kasten 4.2-9: 



Seeks Items eines (fiktiven) Tests werden interkorreliert. In der letzten Spalte erscheint der 
Homogenitatsindex jedes Items (Horn): Mittelwert der junf ,anderen ‘ Itemkorrelationen 
(berechnet iiber Fishers z j. 

Unterhalb der Matrix ist ein Rechenbeispiel gegeben (HO. Dort ist auch der Gesamtindex 
aufgefflhrt (H ges ): Mittelwert aller sechs Einzelindizes (I Hom/6). Beide Ergebnisse zeigen 
Heterogenitat an. 

Koejfizienten der Kiirze halber ohne Dezimalpunkt! 






56 4 . Kapitel: AbriB der klassischen Testtheorie 




Beziehung zu anderen Itemkennwerten 

Homogenitat als Interkorrelation hangt sowohl mit der Schwierigkeit als auch 
mit der Trennscharfe zusammen. 

Was den Schwierigkeitsindex angeht, so gilt: 

- Je mehr die Schwierigkeitsindizes streuen, desto niedriger korrelieren die 
Items miteinander, desto heterogener ist der Test. 

- Je weniger die Schwierigkeitsindizes streuen, desto hoher kann die Inter- 
korrelation ausfallen. 

Was die Trennscharfe angeht, so gilt: 

Hohe Interkorrelation der Items ermoglicht hohe Trennscharfen. 

- Hohe Trennscharfen setzen hohe Interkorrelation der Items voraus. 



4.2.3. 2 Homogenitat im Sinne der Faktorenanalyse 

Items lassen sich (nicht nur interkorrelieren, sondern auch) faktorisieren. Ho- 
mogen sind dann solche Items, die gemeinsam auf demselben Faktor (ver- 
gleichsweise) hoch laden. Unterschiedliche Faktoren mit den ihnen zugeord- 
neten Items konnen unterschiedliche Skalen reprasentieren. 

Diese Art von Homogenitat ist der klassischen Testtheorie konform, sie la6t 
sich verstehen als .Vcrbcsscrung' der Homogenitat im Sinne der Interkorrela- 
tion. - Uberdies ergibt sich ein unmittelbarer Bezug: Die Faktorenladungen 
lassen sich deuten als Korrelation der Variablen/der Items mit einem Faktor. 
Darin laBt sich eine Analogic erkennen zur Trennscharfe als Korrelation der 
Items mit dem Test-Score. 
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4.2.33 Homogenitat im Sinne einer Guttman-Skala 

Der Guttman-Skalierung liegt ein Konzept von Homogenitat zugmnde, wel- 
ches das Modell der klassischen Testtheorie verlaBt (Guttman, 1944). 

Die Modellannahmen besagen: Ein Proband, der ein ,schweres‘ Item lost, muB 
alle Items gelost haben, die ,leichter‘ sind. Das ,schwerste Item 1 , das ein Pro- 
band gelost hat, zeigt den Auspragungsgrad seiner Fahigkeit an. Wenn seine 
Fahigkeit ausreichte zur Fosung des schweren Items, muB sie erst recht aus- 
reichen zur Fosung eines leichten Items. 

Homogen ist ein Itemsatz, der diesen Modellannahmen entspricht. Es ergibt 
sich dann eine Matrix, die ein typisches ,Dreieck der Fosungen 1 bildet, wie 
Kasten 4.2- 10- A es anzeigt: 

In den Spulten wird das leichteste Item links, das schwierigste Item rechts 
plaziert. (Item a ist am leichtesten, Item f am schwierigsten.) 

- In den Zeilen wird der Proband mit den meisten Fosungen oben, der Pro- 
band mit den wenigsten Fosungen unten plaziert. (Proband 1 hat sechs 
Items gelost, Proband 6 nur ein Item.) 

Kasten 4.2-10-A: 

Homogenitat im Sinne einer Guttman-Skala 

+ Item gelost; - Item nicht gelost 
Zum Verstdndnis siehe den laufenden Text! 




Erlauterung zu Kasten 4.2-10-A: Das ,Dreieck der Fosungen 1 verdeutlicht: 

■ Item 1 ist am ,leichtesten‘, weil es von alien Probanden gelost wird. 

■ Item 6 ist am ,schwersten‘; nur ein Proband hat es gelost. 

- Proband 1 ist am ,tiichtigsten‘, weil er alle Items gelost hat. 

■ Proband 6 ist am , wenigsten tuchtig 1 , er hat nur ein Item gelost. 



Ein Naherungserfahren 

Kasten 4.2-10-A veranschaulicht den Idealfall einer Guttman-Skala. Doch 
diirfte sich kein empirischer Datensatz finden, der diesem Ideal entspricht. 
Jane Foevinger hat eine Formel entwickelt, welche fur empirische Datensatze 
die Annaherung an das ideale Muster ermittelt (1948; vgl. Fienert, 1969, 252): 
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N(LX 2 -LX) + LN}-(LX) 2 
~ 2N (L(i ■ Nj) - LX) + LN 2 - (Lx) 2 

Es bedeuten: 

H : Homogenitatsindex, 

N : Zahl der Probanden, 

X : Item-Score je Proband, 

i : Rangplatz eines Items nach der Schwierigkeit p, 
das leichteste Item erhalt Rangplatz 1, 

N; : Anzahl der Probanden, die das Item mit dem Rangplatz i gelost haben. 

Kasten 4.2-10-B zeigt die leicht geanderte Matrix von Kasten 4.2-10-A: Bei 
Proband 3 weicht die Folge zu Item c, d und e von der Idealfolge ab. Fiir 
dieses Beispiel lautet das Ergebnis der Homogenitat nach Foevingers Formel: 
H = 0.66. 



6 • (91 - 21) + 92 + 21 2 
2 -6(59 -21) + 92- 21 2 



0.66 



Kasten 4.2-10-B: 

Homogenitat im Sinne einer Guttman-Skala 
Angendherte Matrix 

(+ Item gelost; - Item nicht gelost) Zum Verstandnis siehe laufenden Text! 



Pbn 


a 


b 


Ite 

c 


ms 

d 


e 


/ 


m 


R9 


1 


+ 


+ 


+ 


+ 


+ 


+ 


6 




2 


+ 


+ 


+ 


+ 


+ 


+ 


5 


■ 


3 


+ 


+ 


- 


+ 


+ 


- 


4 


mm 


4 


+ 


+ 


+ 


- 




- 


3 




5 


+ 


+ 


- 


- 


- 


- 


2 


Mi 


6 


+ 


- 


- 


- 


- 


- 


1 




P 


1.00 


0.83 


0.50 


0.50 


0.50 


0.33 


21 




i 


1 


2 


4 


4 


4 


6 


21 




X 


6 


5 


3 


3 


3 


2 


19 






6 




12 


12 


12 


12 


59 


■ 


X 2 


36 


25 


9 


9 


9 


4 


92 





Das Guttman-Modell ist ein deterministisches Modell, es beruht auf der An- 
nahme: 

Eine Person lost immer ein Item, wenn ihre ,Tiichtigkeit‘ ausreicht. 

- F ine Person lost nie ein Item, wenn ihre ,Tiichtigkeit‘ nicht ausreicht. 

In diesem Punkte unterscheidet sich das Rasch-Modell. 































4.2 Itemanalyse 



59 



42.3.4 Homogenitat im Sinne des Rasch-Modells 

Wie die Skalierung nach Guttman, so beruht auch eine Skalierung nach Rasch 
auf Ansatzen, die sich nicht decken mit den Annahmen der klassischen Test- 
theorie. Doch wird der Zusammenhang zwisclien ,Fahigkeit’ und ,Itemlo- 
sung‘ nicht deterministisch (wie bei Guttmann), sondem probabilistisch ge- 
fafit. 

Das besagt: 

- Die Annahme lautet nicht: Jedes Mai, wenn die ,Tuchtigkeit‘ eines Pro- 
banden groBer ist als die ,Schwierigkeit‘ eines Items, wird er das Item 
losen. 

Sondem sie lautet: Es ist wahrscheinlich, daB ein Proband, dessen ,Tuch- 
tigkeit‘ groBer ist als die ,Schwierigkeit‘ eines Items, die Losung findet. 

Die Losungswahrscheinlichkeiten lassen sich als Kurven darstellen. Als ho- 
mogen gelten Rems, deren Verlaufskurven gleichartig sind und sich nur un- 
terscheiden in ihrer Position auf der Fahigkeitsdimension. - Weitere Einzel- 
heiten bietet die Skizze des Rasch-Modells (Kapitel 6, S. 151). 



4.2.4 Testrevision und Itemselektion 

Nach AbschluB der Itemanalyse ist zu entscheiden, welche Items zu behalten 
und welche zu eliminieren sind. Eine solche Entscheidung sollte nicht allein 
nach statistischen Gesichtspunkten getroffen werden, sondem inhaltliche An- 
liegen mitberiicksichtigen. 

Wir gehen in drei Schritten vor, wir besprechen: 

inhaltliche Fragen der Itemselektion (4.2.4. 1), 

- statistische Schritte der Itemselektion (4.2.4.2), 

- weitere Gesichtspunkte einer Itemselektion (4.2.4.3). 



4.2.4. 1 Inhaltliche Fragen der Itemselektion 

Inhaltliche Anliegen einer Itemselektion konnten sich in Fragen wie den fol- 
genden artikulieren: 

Sind bestimmte Items zu behalten, um als Eisbrecher zu dienen? 

Sind Items zu behalten, weil sie einen bestimmten Itemtyp reprasentieren? 
Kann man auf bestimmte Items deswegen verzichten, weil geniigend an- 
dere Items gleichen Inhalts vorliegen? 

Sind bestimmte Items (trotz ungiinstiger Itemkennwerten) zu behalten, weil 
sie das Testmerkmal besonders prdgnant reprasentieren? 

Sind bestimmte Items (trotz giinstiger Itemkennwerten) deswegen zu eli- 
minieren, weil sie sich theoretisch-inhaltlich nicht so einordnen lassen, wie 
es bei den Voriiberlegungen aussah? 
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Sind Items zu eliminieren, weil sie ethische Normen verletzen (z.B. Ver- 
letzung der Intimsphare, rassische oder bemfliche Diskriminiemng)? 
Speziell bei Personlichkeitstests: 

=> Sind die Item-Antworten ausbalanciert, d.h. gibt es etwa gleich viele 
Items, die mit ,Ja/Stimmt‘, wie solche, die mit ,Nein/Stimmt nicht‘ zu 
beantworten sind? 

=> Sind die Items frei von Verzerrungstendenzen (z.B. frei von sozialer 
Erwunschtheit)? 



42.4.2 Statistische Schritte der Itemselektion 

Es gibt unterschiedliche Prozeduren, welche die statistischen Entscheidungen 
einer Itemselektion regeln. Hier werden nur zwei besprochen: 

- fur homogene Tests: die Berechnung des Selektionskennwertes (A), 

- fur heterogene Tests: die Prufung der Loserhaufigkeiten 

in den vier Quartilen der Test-Scores (B). 



(A) 

Itemselektion bei homogenen Tests 
Berechnung des Selektionskennwertes 



Homogene Tests setzen Schwierigkeitsindizes voraus, die in einem eng um- 
schriebenen Intervall liegen (z. B. zwischen p = 0.40 bis p = 0.60). Damit sol- 
che Tests es aber erlauben, (nicht nur zwei oder drei, sondern) vielfaltige 
Merkmalsabstufungen zu unterscheiden, sollten auch leichte und schwere 
Items erhalten bleiben. 

Dem Zweck, eine Itemmenge mit einem breiten Band unterschiedlicher 
Schwierigkeiten auszuwahlen, dient die Berechnung eines Selektionskennwer- 
tes (Lienert, 1969, 141-143; Lienert & Raatz, 1994, 117). Man kann das Ziel 
folgendermaBen umschreiben: 

- Man will Items mit niedriger Trennschdrfe ausscheiden, selbst wenn sie 

eine mittlere (also giinstige) Schwierigkeit haben. 

- Man will Items mit holier ( also giinstiger) Trennschdrfe behalten, selbst 

wenn sie eine extreme ( eine hohe oder niedrige) Schwierigkeit haben. 

Die Berechnung des Selektionskennwertes orientiert sich an Trennscharfe und 
Schwierigkeit, aber das wichtigere Kriterium bleibt die Trennscharfe. 



Sel = 



n, 

2 ■ 



Es bedeuten: 

Sel : Selektionskennwert, 
r : Trennscharfe, 

A lt ’ 
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p : Schwierigkeitsindex, 

q : 1-p. 

Fiir die Itemselektion gilt die Regel: Man w'dhle jene Items, die einen ho- 
lier en Selektionskennwert haben. 

Um die Funktion zu veranschaulichen, sei in Kasten 4.2-11 die Trennscharfe 
konstant gehalten, in Kasten 4.2-12 dagegen der Schwierigkeitsindex. 

In Kasten 4.2-11 wird die Trennscharfe konstant gehalten. 



Kasten 4.2-11: 

Funktion des Selektionskennwertes: 

Die Trennscharfe bleibt konstant, die Schwierigkeit variiert von 0.10 bis 0.90. 



Wie verhdlt sich der Selektionskennwert? 



Trennscharfe konstant: 

r it = 0.60 


Schwierigkeit 
0.10 - 0.90 


Selektions- 

kennwert 




10 


1.00 




.20 


.75 




.30 


.65 




.40 


.61 




.50 


.60 




.60 


.61 




.70 


.65 




0.80 


.75 




.90 


1.00 


Berechnungsbeispiel fiir p = 0.70: 


0.60 

p— 70; r ir .60 2 • V .70 • .30 


-=0.65 



Erlauterung zu Kasten 4.2-11: Die Trennscharfe wird konstant gehalten bei 
r it = -60. 

- Wir gehen aus von dem Item mit der Schwierigkeit p = 0.50; sein Selek- 
tionskennwert liegt bei Sel = 0.60. 

-Wir betrachten die benachbarten Items mit Schwierigkeiten, die gegen 
p = 0.10 oder p = 0.90 gehen. Bleibt die Trennscharfe bei verschiedenen 
Items gleich (hier bei r it = 0.60), dann steigt der Selektionskennwert um 
so hoher, je weiter sich die Schwierigkeit von p = 0.50 entfemt. 

Fiir die Itemselektion bedeutet das: Soil zwischen Items gleicher Trennschar- 
fe gewahlt werden, so ,rat‘ der Selektionskennwert zur Einbeziehung von 
schwierigen oder von leichten Items. Diese Wahl ,lockert‘ die Homogenitdt 
auf: 

In Kasten 4.2-11 wird die Schwierigkeit konstant gehalten. 
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Die Schwierigkeit 


Kasten 4.2-12: 

Funktion des Selektionskennwertes: 

bleibt konstant, die Trennscharfe variiert von 

Wie verhalt sich der Selektionskennwert? 


0.10 bis 0.90. 


Schwierigkeit konstant: 


Trennscharfe 


Selektions- 


p = 0.60 


0.10 - 0.90 


kennwert 




,10 


.10 




.20 


.20 




.30 


.31 




.40 


.41 




.50 


.51 




.60 


.61 




.70 


.71 




.80 


.82 




.90 


.92 



Berechnungsbeispiel fiir r it = 0.30 

Sel r - 30 . _ 60 = r Q - 3 °- = 0.3 1 

r, r .iV,p=.W 2 ^ 60 . 40 



Erlduterung zu Kasten 4.2-12: Die Schwierigkeit wird konstant gehalten bei 

p = 0.60. 

Wir gehen aus von dem Item mit der Trennscharfe r it = 0.10; sein Selek- 
tionskenntwert liegt bei Sel = 0.10. 

- Wir betrachten die Items mit Trennscharfen, die gegen r it = 0.90 gehen. 
Bleibt die Schwierigkeit bei verschiedenen Items gleich (hier bei 
p = 0.60), dann steigt der Selektionskennwert mit steigender Trennscharfe. 

Fiir die Itemselektion bedeutet das: Soil zwischen Items mit gleicher Schwie- 
rigkeit gewahlt werden, so ,rat‘ der Selektionskennwert zur Einbeziehung jener 
Items, die eine hohere Trennscharfe haben. 



Genereller Hinweis zum Selektionskennwert 

„Bei der vom Vf. empfohlenen Technik . . . kann zwar die Aufgabenauswalil 
rein schematisch erfolgen, jedoch ist dartiber hinaus eine Beachtung der Ein- 
zelkriterien stets wiinschenswert “ (Lienert, 1969, 143). 



(B) 

Itemselektion bei heterogenen Tests: 

Priifung der Loser-Haufigkeiten in den vier Quartilen der Test-Scores 

Bei heterogenen Tests empfehlen sich folgende Schritte der Itemselektion (Lie- 
nert, 1969, 144; Lienert & Raatz, 1994, 120): 

- Ausgeschieden werden Items, deren Schwierigkeit iiber oder unter einer 
bestimmten Marke liegen, beispielsweise iiber p = 0.85 oder unter p = 0.15. 
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- Ebenso werden Items ausgeschieden, deren Trennscharfe unter eine be- 

stimmte Marke fallen, etwa unter r it = 0.25. 

Von den verbliebenen Items behalt man jene mit hoherer Trennscharfe. 
Haben zwei ocler mehrere Items die gleiche Trennscharfe, so behalt man 
jenes Item, dessen Loser sich ,addquat‘ iiber die vier Quartile der Test- 
Scores verteilen. 

Was ,adaquat‘ hier besagt, sei verdeutlicht: 

Bei zwei Items gleicher Trennscharfe bringt man die Test-Scores in eine Rang- 
reihe, bildet das erste, zweite, dritte und vierte Quartil und priift, wie sich die 
Item-Loser verteilen. 

Im ersten Quartil erwartet man: Wer einen niedrigen Test-Score hat (und 
deswegen zum 1. Quartil gehort), lost das Item nicht. Anders formuliert: 
Von den Item-Losem sollten moglichst wenige ins 1. Quartil der Test-Sco- 
res fallen. 

- Im vierten Quartil erwartet man: Wer einen hohen Test-Score hat (und 

deswegen zum 4.Quartil gehort), lost das Item. Anders formuliert: Von 
den Item-Losem sollten moglichst viele zum 4.Quartil der Test-Scores 
gehoren. 

- Entsprechendes gilt vom zweiten und dritten Quartil. 

Diese Erwartung beraht auf dem Konzept der TrennschMe, wonach gilt: Die 
, Loser 4 eines Items sollen zu den Pbn mit hohen Test-Scores gehoren (die 
Nicht-Loser zu den Pbn mit niedrigen Test-Scores). 

Erwunscht sind demgemaB Items, deren Loser sich so verteilen, daB , wenige 4 
zum ersten Quartil der Test-Scores (mehr zum zweiten und dritten Quartil) 
und , viele 4 zum vierten Quartil gehoren. Diese Haufigkeits verteilung der Loser 
sollte eine aufsteigende Gerade ergeben. 

Beispiel: Gegeben seien Item 13 und 17, beide mit einem Schwierigkeitsindex 
von 0.50 und beide mit einer Trennscharfe von r it = 0.65. Eines der beiden 
Items soli ausgeschieden werden. Die Trennscharfe gibt dafiir in diesem Falle 
kein Kriterium ab. Um ein Kriterium zu gewinnen, ermitteln wir die Verteilung 
der Loser iiber die vier Quartile. 

Beteiligt seien 200 Probanclen. litre Test-Scores werden in eine Rangreihe ge- 
bracht. Es werden Quartile gebildet. Zu jedem Quartil gehoren 50 Probanden. 
Zu kldren ist, wieviele Probanden je Quartil zu den Losern gehoren. 

Fur das Beispiel gibt Kasten 4.2-13 die Verteilung an. 
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Kasten 4.2-13: 

Itemselektion bei heterogenen Tests: 

Verteilung der Loser der hems 13 und 17 iiber die vier Quartile der Test-Scores 
Siehe den laufenden Text! 



Quartil im Test-Score 


Haufigkeit der Loser 
Item 13 Item 17 


1. 0-6 Punkte 


5 


11 


2. 7-14 


IS 


12 


3. 15-21 


29 


48 


4. 22-30 


48 


29 



Erlauterung zu Kasten 4.2-13: 

5 Pbn, die Item 13 losen, gehoren nach dem Test-Score ins 1. Quartil. 

(45 Pbn dieses Quartils sind Nicht-Loser.) 

18 Pbn, die Item 13 losen, gehoren nach dem Test-Score ins 2.Quartil. 

(32 Pbn dieses Quartils sind Nicht-Loser.) 

29 Pbn, die Item 13 losen, gehoren nach dem Test-Score ins 3. Quartil. 

(21 Pbn dieses Quartils sind Nicht-Loser.) 

■ 48 Pbn, die Item 13 losen, gehoren nach ihrem Test-Score ins 4. Quartil. 

(2 Pbn dieses Quartils sind Nicht-Loser.) 

Welches Item ist in Kasten 4.2-13 zu behalten? 

Zu behalten ist Item 13. Warum? 

Bei Item 13 verteilen sich die Loser gemaB dem Konzept der Trennscharfe 
in erwiinschter Weise: Im 1. Quartil der Test-Scores finden sich ,wenige‘, im 
4. Quartil dagegen ,viele‘ Loser. Die Verbindung der Haufigkeitspunkte ergibt 
fast eine Gerade. 

Bei Item 17 verteilen sich die Loser in unerwiinschter Weise: im 1., 2. und 
im 3. Quartil finden sich ,zuviele‘, im 4. Quartil ,zu wenige 4 Loser. Die Ver- 
bindung der Haufigkeitspunkte ergibt keine Gerade. 

Kasten 4.2-14 veranschaulicht die unterschiedliche Verteilung der Loser bei 
Item 13 und 17. 
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Kasten 4.2-14: 

Itemselektion bei heterogenen Tests: 

Verteilung der Loser-Hdufigkeit fiir Item 13 und 17 iiber die vier Quartile der Testscores 
Siehe Kasten 4.2-13 und den laufenden Text! 




4.2.4.3 Weitere Gesichtspunkte einer Itemselektion 

Andere Gesichtspunkte, welche die Itemselektion mitbestimmen sollten, seien 
in Fragen gekleidet: 

Haufen sich gleiche Schwierigkeitsindizes in Bereichen, wo die Haufung 
unerwiinscht ist? (Liegen z.B. zuviele Items in dem Bereich p = .60 bis 

p = .80?) 

Sind schwierige und leichte Items in gleichen Anteilen vertreten, so daB 
die Gesamtverteilung ausgewogen erscheint? 

Sind die Sprunge zwischen Items unterschiedlicher Schwierigkeit nicht zu 
groB, vor allem nicht, wenn sie in aufsteigender Reihe geordnet werden? 

„Die simultane Selektion nach Trennscharfe und Schwierigkeit ist nicht 
einfach und endet nicht selten mit vielerlei Kompromissen, Man sollte auch 
immer diepsychologische Validitat der einzelnen Aufgaben beachten, damit 
die Testendform auch den Laien in etwa befriedigt. Alle erfahrenen Test- 
bearbeiter . . . sollten sich bei der Aufgabenselektion jedes Perfektionismus 
enthalten und ein Finger spitzengefiihl fiir cliese Technik und die hierzu 
erforderliche Komp romifdbe reitsc haft erwerben “ (Lienert, 1969, 139). 
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4.3 Ermittlung der Test-Gutekriterien 

Vereinfacht gilt: Die Itemkennwerte charakterisieren den Test von seinen Ein- 
zelaufgaben. die Test-Gutekriterien von seiner Gesamtstruktur her. Unter drei 
Perspektiven wird bestimmt, wie angemessen der Gesamttest das empirische 
Relativ im numerischen Relativ abbildet. 

Es geht um 

- Standardisierung, genannt Objektivitdt (Kap. 4.3.1), 

MeBprazision, genannt Reliabilitdt (Kap. 4.3.2), 

- Merkmalssattigung, genannt Validitat (Kap. 4.3.3). 

HINWEIS: Die drei Hauptkriterien sind nicht disjunkt trennbar: Objektivitdt 
lafit sich als Teilaspekt der Reliabilitdt betrachten, Validitat als Sonderfall der 
Reliabilitdt, Reliabilitdt als Voraussetzung von Validitat. 

Zu den drei Hauptgutekriterien kommen vier Nebengiitekriterien hinzu (Lie- 
nert & Raatz, 1994, 7, 11-13): 

- Normierung: Bezug zu einer Population, 

- Okonomie: Minimierung von Zeit- und Materialaufwand, 

- Niitzlichkeit: Bezug zur Praxis in Forschung oder Anwendung, 

- Vergleichbarkeit: Bezug zu anderen Verfahren. 



4.3.1 Objektivitdt 

Objektivitat bezeichnet das MaB, wie weit in der diagnostischen Situation eine 
Standardisierung des gesamten Testvorganges gelingt. Objektivitat umfaBt 
„alle Variationsquellen, die zu Lasten unvollkommener Standardisierungen der 
einzelnen Phasen des diagnostischen Prozesses gehen“ (Michel & Conrad, 
1982, 16). 

Noch einmal ausfiihrlicher: Objektivitat gibt an, 

wie weit das Verhalten als empirisches Relativ eindeutig quantifiziert wird 

in Item- und Test-Scores als numerischem Relativ und 

wie weit diese Quantifizierung sich eindeutig interpretieren laBt. 

Bei Durchfuhrung, Registrierung und Auswertung desselben Tests soil das 
gleiche Verhalten eines Probanden immer in gleicher Weise quantifiziert und 
die quantifizierten Ergebnisse (die Test-Scores) immer in gleichem Sinne in- 
terpretiert werden. Objektivitat bezeichnet demnach auch die Unabhangigkeit 
der Testergebnisse vom Anwender. 

Bei einigen Autoren erhdlt Objektivitdt eine Sonderbedeutung. Sie bezeich- 
net die Undurchschaubarkeit eines Tests fiir den Probanden, betont also 
die Unabhangigkeit der Testergebnisse von Kognition oder Motivation der 
Probanden (Cattell, 1958; Fahrenberg, 1964; Hacker, 1982). 
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Wir gliedem den Stoff in die zwei Abschnitte: Arten der Objektivitat (4.3. 1.1) 
und Probleme der Objektivitat (4.3. 1.2). 



4.3. 1.1 Arten von Objektivitat 

Unterschieden werden in der Regel (mindestens) drei Arten: 

- Durchfiihrungs-, 

- Auswertungs- 

- und Interpretationsobjektivitat. 



Dur chfuhrungsobj ekti vitat 

Die Objektivitat der Durchfiihrung betrifft Raum und Zeit der diagnostischen 
Situation, die kognitiv-emotionale Verfassung des Probanden, dariiber hinaus 
die Instruktion, welche die Testvorgabe und den Verlauf der Anwendung regelt. 

Nur in seltenen Fallen laBt sich die Durchfiihrung vollkommen stand- 
ardisieren. Beispielsweise kann der Testleiter nur in begrenztem MaBe die 
Befindlichkeit des Probanden vorhersehen und beeinflussen. 

F ine approximative Standardisiemng soil die Testinstruktion ermoglichen. 
Kasten 4.3-1 gibt ein Beispiel. 



Kasten 4.3-1: 

Instruktion/Beispiele 

Instraktion flir den Anwender: Aus dem ..Hamburg-Wechsler-Intelligenztest flir Erwachsene 
(HAW IE)” (Wechsler, 1964, 173): 

„Bei der Durchfiihrung des Tests mufi der VL unbedingt die Anweisungen befolgen. Sie 
miissen wortlich auswendig gelernt werden. Der VL soil die VP wdhrend des Tests nicht in 
ein Gesprdch verwickeln; erlaubt sind nur notwendige Ermunterungen der VP Die 
Anweisungen diirfen so oft wie erforderlich wiederholt, jedoch nicht erklart werden. “ 

VL: Versuchsleiter / VP: Versuchsperson 

Instraktion flir den Probanden: Aus dem „Leistungspriifsystem (LPS)” (Horn, 1983, 7): 

..In der folgenden zweistUndigen Untersuchung sollfestgestellt werden, welche Aufgabenarten 
dem Einzelnen leichtfallen, und was ihm weniger liegt. Die Zeit ist meist sehr kurz. Selbst 
der welcher ungewohnlich schnell arbeitet, wird selten zur Losung der schwersten Aufgaben 
kommen. Es ist jedoch wichtig, dafi man sich immer Miihe gibt, damit man nicht falsch 
beurteilt wird... 

Jede Aufgabe wird in sehr einfachem Deutsch erklart. Wer am SchluG der Erklarang noch 
nicht verstanden hat. was er machen soil, darf nicht laut fragen, sondem hebt nur seinen 
Arm. Es wird ihm dann nochmals personlich erklart werden, was er zu tun hat. Allerdings 
kann keinem spater bei den schweren Aufgaben geholfen werden.” 
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Auswertungsobjektivitat 

Auswertungsobjektivitat besteht darin, dab gleichen Itemantworten gleiche nu- 
merische Werte (Scores) zugeordnet werden. 

Leicht ist diese Standardisierung bei gebundenen Items, realisiert in Tests 
wie dem IST 70 von Amthauer (1973) oder dem LPS von Horn (1983). 
Schwer ist eine vollige Standardisierung bei freien Items. Hilfe bietet hier 
eine ausfiihrliche Auswertungsanweisung, die viele Beispiele liefert. Um 
nur zwei Namen zu nennen: solche Auswertungshilfen geben Baumler im 
Manual zum ,Lem- und Gedachtnistest 4 (LGT 3: 1974), Schoppe im Ma- 
nual zum ,Verbalen Kreativitatstest 4 (VKT: 1975). - Kasten 4.3-2 fiihrt 
ein Beispiel an. 



Kasten 4.3-2: 

Auswertungshilfen bei freien Items 



Aus dem „Lern- und Gedachtnistest (LGT 3)“ (Baumler, 1974, 36): 


In der 3.Aufgabe werden dem 
Kleiderbiigel, Hammer. Roller. 


Probanden 20 Gegenstande 


gezeigt (bildlich), z.B. 


Zur Auswertung werden folgende Hilfen angeboten: 




Richtig 


Noch giiltig 


Ungiiltig 


Kleiderbiigel 


Aufhanger, Haken 


Bogen, Bumerang 


Hammer 


Schlegel 


Werkzeug 


Roller 


Zweirad 


Fahrrad, Rad 



Die Auswerterobjektivitat labt sich iiberpriifen, indem verschiedene Auswerter 
dasselbe Antwortprotokoll kodieren. Die Ubereinstimmung kann korrelativ 
oder varianzanalytisch geschatzt werden. 



Interpretationsobjektivitat 

Die Objektivitat der Interpretation betrifft den Grad der Eindeutigkeit, mit der 
verschiedene Anwender dem gleichen numerischen Wert (dem Test-Score) die 
gleiche Merkmalsauspragung zuordnen. Wenn der Testautor Merkmalsbezeich- 
nungen vorgibt und der Auswerter sie ubemimmt, ist formal die Objektivitat 
der Interpretation gegeben - es handelt sich um eine Sprachregelung. 

Konnte eine Standardisierung der Interpretation nicht auch mehr anzielen: 
namlich die Eindeutigkeit, die Experten als Interpreten einem Test-Score zu- 
ordnen? In dieser Deutung nahert sich das Konzept der Interpretationsobjek- 
tivitat dem der Validitat. 

Fur Interpretationshilfen gibt Kasten 4.3-3 ein Beispiel. 








4.3 Ermittlung der Test-GUtekilterien 



69 



Kasten 4.3-3: 

Festlegung der Interpretation/Beispiel 

1m „Intelligenz-Struktur-Test 70 (1ST 70)” (Amthauer, 1973, 39) werden Interpretationen flir 
alle Untertests angeboten. Hier zwei Beispiele: 

„Was wird mit den Aufgabengruppen des I-S-T untersucht? 

SE (Satzerganzung): 

Urteilsbildung, common sense, Akzent im Konkret-Praktischen, Wirklichkeitssinn, 
Selbstdndigkeit im Denken. 

WA (Wortauswahl): 

Erfassen von sprachlichen Bedeutungsgehalten, Sprachgefiihl, induktives sprach- 
liches Denken, Einfiihlungsfdhigkeit. rezeptive Komponenten. “ 



Ein Interpretationsproblem: Ein Problem eigener Art kann sich daraus erge- 
ben, daB zwei Probanden zwar den gleichen Score erreichen, der Score aber 
auf disjunkten Iten-mustem bemht. Indiziert hier der gleiche Test-Score immer 
gleiches Merkmal und gleiche Auspragung? - Rein formal gesehen: Ja! Items 
gelten als gleichwertig. Inhaltlich konnen Divergenzen auftreten. 

Kasten 4.3-4 gibt ein Beispiel. 



Kasten 4.3-4: 

Interpretation: Gleieher Score/Divergierende Iteminhalte 

Aus dem „Fragebogen zur Erfassung von Aggressivitatsfaktoren (FAF)” (Hampel & Selg, 
1975): 

Proband A beantworte folgende drei Items in Schllisselrichtung: 

6: Es macht mir offen gestanden manchmal SpaB, andere zu qualen. 

17: Als Kind habe ich manchmal ganz gerne andere gequalt. 

26: Mir hat es als Kind eigentlich SpaB gemacht, wenn andere von Eltem oder von 

Lehrem Priigel bezogen. 

Proband B beantworte folgende drei Items in Schllisselrichtung: 

14: Zwischen anderen und mir gibt es oft Meinungsverschiedenheiten. 

27: Ich hatte schon einmal solchen Zorn auf jemand, daB ich ihm den Tod wlinschte. 

40: Es macht mir SpaB, anderen Fehlern nachzuweisen. 

Proband A scheint eher Aggression zu bejahen, die sich auf Verhalten, Proband B dagegen 
Aggression, die sich auf Vorstellungen bezieht. Beide erhalten den gleichen Test-Score: einen 
Rohwert von 3 Punkten. 

Lassen sich beide Scores in dem Sinne gleieher Aggressivitdt interpretieren? 



4.3. 1.2 Probleme der Objektivitat 

Die Forderung nach voller Standardisierung begriindet sich aus dem Anliegen, 
ein Merkmal interaktionsfrei zu messen. Paradox formuliert: Der Testleiter 
soil mit dem Probanden interagieren, ohne Interaktionseffekte hervorzumfen. 
Geht es damit aber nicht um Vorstellungen, die nicht einmal in der Physik zu 
realisieren sind, wie wir inzwischen wissen? 
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Eine Gegenposition bezieht die tiefenpsychologisch orientierte Therapie, 
indem sie Interaktionen mit dem Probanden gezielt in die Interpretation 
einbezieht, um so den diagnostischen und therapeutischen Prozefi zu ver- 
stehen und zu steuern. Rational verantwortbar bleibt eine solche Prozedur 
aber nur dann, wenn die subjektiven Ejfekte in Diskussion und Supervision 
(also in einem System rivalisierender Experten) kontrolliert werden. 

Man darf aber nicht verkennen, daB in der Objektivitat ein zentrales Anlie- 
gen psychologischen Diagnostizierens zur Sprache kommt: Der Untersucher 
will in einem Test jenen Anteil eines Merkmales erfassen, der dem Probanden 
zukommt (und nicht ihm selber, dem Anwender). Diese Probanden-Kompo- 
nente findet der Untersucher nur heraus, wenn er seinen eigenen Anteil an 
der Messung isolieren und eliminieren kann oder wenn er zeigen kann, daB 
nicht er selber die Messung beeinfluBt. 



4.3.2 Reliabilitat 

Reliabilitat charakterisiert das MeBinstrument Test unter dem Aspekt der Pra- 
zision. Implizit sind damit zwei Anteile angesprochen: wahrer Wert und Feh- 
lerwert. Von beiden Anteilen her ist Reliabilitat definiert worden: 

Reliabilitat gilt als Mefigenauigkeit des Instrumentes unter Absehung vom 
Inhalt. 

■ Reliabilitat gilt als Bestimmung des Mefifehlers, mit dem die Testwerte 
behaftet sind, unabhangig davon, fur welchen Inhalt die Werte stehen. 

Beide ,Definitionen‘ beruhen auf Annahmen iiber den Zusammenhang zwi- 
schen wahrem Wert und Fehler, den sogenannten Axiomen der klassischen 
Testtheorie. 



Wir besprechen fiinf Problembereiche: 

- Axiome der klassischen Testtheorie (4.3.2. 1), 

- Definition von Reliabilitat (4.3. 2.2), 

- Veranschaulichung der Axiome 

und der Definition von Reliabilitat (4.3. 2.3), 

■ Modelle der Reliabilitatsberechnung (4. 3. 2.4), 

- Test-Score und Vertrauensbereich (4.3. 2.5), 

- Kritische Differenzen (4. 3. 2. 6). 



4.3.2. 1 Axiome der klassischen Testtheorie 

iiber wahren Wert und Fehler wurden Annahmen formuliert, die sich selber 
nicht mehr ableiten lassen, aber ihrerseits Ableitungen begriinden; diese An- 
nahmen heiBen Axiome. „Es sei . . . darauf hingewiesen, daB dieses axiomati- 
sche System zunachst formal-logische und somit nicht falsifizierbare Relatio- 
nen zwischen definierten Modellkomponenten beschreibt. Die Brauchbarkeit 
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solcher syntaktischer Aussagen hangt jedoch im wesentlichen davon ab, ob 
sie die Realitat der MeBvorgange anhand psychologischer Tests hinreichend 
abdecken“ (Michel & Conrad, 1982, 19). 

Hier seien die Axiome nur skizziert, nicht im einzelnen kommentiert (vgl. 

Fischer 1974; Lord & Novick, 1974; Michel & Conrad, 1982). 

Axiom 1: Ein beobachteter Wert (X) setzt sich additiv zusammen aus wahrem 
Wert (True score: T) und Fehlerwert (Error: E): 

X= T + E 

Der Fehler laBt sich weiter zerlegen (Magnusson, 1969, 114): 

E—E m + E adm + E g + E sub j + E T ji 
Es bedeuten: 

E m = E zufolge Erinnerung (memory), 

Eadm = E zufolge Anwendung (administration), 

E g = E zufolge Rate-Effekten (guessing), 

E subj = E zufolge subjektiver Auswertung, 

also zufolge mangelnder Objektivitat, 

E fl = E zufolge fluktuierender wahrer Werte. 

Axiom 2: Der Erwartungswert der Fehler [a(E)] und die Summe der Fehler 
[CE] sind gleich Null: 

e(E) = %E = 0 

Als Folgemng ergibt sich: Der Mittelwert der wahren Werte [M-r] ist gleich 
dem Mittelwert der beobachteten Werte [MJ: 

M x = M t 

Voraussetzung: Axiom 2 setzt voraus, clafi in ,,X = T + E“ je Individuum 
nur E variiert und T invariant bleibt. Mit anderen Worten.. Je Individuum 
gilt der wahre Wert als stabil. Fluktuierte (nicht nur der Fehler sondern 
auch) der individuelle wahre Wert, liefie sich die Variation nicht mehr 
eindeutig trennen in „wahre Anteile“ und „F elileranteile“ (Fafinaclit, 
1995, 214). 

Konsequenz: Die klassische Testtheorie Idjlt sich nur anwenclen auf Merk- 
male, die stabil sind (auf sogenannte „traits“. Sie eignet sich nicht zur 
„Messung” von Verhaltens-Prozessen. 

Axiom 3: Fehlerwert und wahrer Wert korrelieren (p) nicht systematisch mit- 
einander: 

9t,e = 0 

HINWEIS: Aus den drei Axiomen lassen sich Aussagen iiber zwei Kova- 
rianzen ableiten: iiber die Kovarianz von , wahrem Wert und Fehlerwert’ 
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(cov TE ) und iiber die Kovarianz von ,beobachtetem and wahrem Wert ‘ 
(cov X j). Es lafit sich zeigen, dafi gilt: 

cov TE = 0 und cov x ,t = s 2 t 

Diese Terme werden wir bei Besprechung der kriteriumsbezogenen Vali- 
dity benotigen (S. 101). 

Axiom 4: Wahrer Wert und Fehlerwert zweier verschiedener Tests (T a , E b ) 
korrelieren (p) nicht systematisch miteinander: 

P Ta, Eb = 0 

Axiom 5: Fehlerwerte zweier unterschiedlicher Tests (E a , E b ,) korrelieren (p) 
nicht systematisch miteinander: 

P Ea, Eb ~ 0 



4.3.2.2 Definition von Reliability 

Von den Axiomen leiten sich zwei Definitionen der Reliability ab: 
Reliability als Quotient aus wahrer und beobachteter Varianz Oder 
- Reliability als Korrelation zweier Paralleltests. 

Beide Definitionen fiihren zu demselben Ergebnis. Hier sei nur die Bestim- 
mung als Quotient eingefuhrt. Gegeben sind die drei GroBen T, E, X (wahrer 
Wert, Fehlerwert und beobachteter Wert). Wiederholte Messungen fiihren zu 
drei Varianzen: s T ", S E und s x ‘. 

Benotigt werden noch folgende Terme: 
r TE : Korrelation zwischen wahrem Wert und Fehler, 
s T : Standardabweichung der wahren Werte, 
s E : Standardabweichung der Fehler. 

2 2 2 

Die drei Varianzen (s T ‘, s H ‘, s x ‘) verhalten sich wie folgt: 

S x 2 = s T 2 + s E 2 + 2r T>E ■ s T ■ s E 

Nun gilt nach Axiom 3: r TE = 0. Somit entfallt der dritte Summand. Es bleibt: 

s x 2 = s T 2 + s E 2 

Bei dieser Gleichung setzt die Definition von Reliability an. Als Kiirzel fur 
Reliability steht: r tt . Es wird festgelegt: 
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DEFINITION: Als Reliabilitdt gilt der Quotient von ,wahrer Varianz‘ (s 2 T ) 
und ,beobachteter Varianz‘ (s 2 x ), also der Anteil, den die wahre Varianz an 
der beobachteten Varianz erreicht. 

2 2 2 

Fur die beobachtete Varianz s x (im Nenner) laBt sich einsetzen s T + s E , so 

daB auch gilt: 



r, ‘ = +sUsl 



Diese Festlegung ergibt eine sinnvolle Definition: 

Wenn die Fehlervarianz (s E ) gegen Null strebt, geht die Reliabilitat gegen 
Eins. 

Wenn die Fehlervarianz gegen Unendlich strebt, geht die Reliabilitat gegen 
Null (wegen Sj 2 2 0). 



Zwei Varianten derselben Grundformel 
Die Ausgangsformel laBt sich in zwei Varianten darstellen: 



Nun gilt: s x 2 = Sy 2 + s E 2 
2 2 2 
St = s x ^ - s E 2 

Einsetzen im Zahler von (I) und Kiirzen ergibt (II): 

si 

(II) r t[ = 1— f 
si 

HINWEIS: In der Formel (II) ist ein Fehlerterm enthalten (, 'se '), der ( 
dienen kann, einen sogenannten , Vertrauensbereich ‘ zu berechnen, einen 
reich, in dem der wahre Wert liegt (s 2 e = s 2 \ [1 — r,J, S. 90). 



4.3. 2.3 Veranschaulichung der Axiome und der Definition von Reliabilitat 

In Fasten 4.3-5 sei an einem Zahlenbeispiel veranschaulicht, wie sich eine 
2 r 2 2 
beobachtete Varianz (s x ") in wahre Varianz und Fehlervarianz (s\, s" E ) zer- 

legen laBt und wie die drei GroBen in die Definition von Reliabilitat eingehen. 
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Kasten 4.3-5: 



Veranschaulichung der Axiome und der Definition von Reliability 



14)11: Probanden 
N: Zahl der Probanden 

M: Mittelwert 

s 2 : Varianz 


cov TE : Kovarianz von wahrem Wert (Tj 
und Fehler (E) 

cov XT : Kovarianz von beobachtetem Wert (X) 

und wahrem Wert (T) 


Spalte 


1 


2 


3 


4 


5 




Beobacht. W. 


W ahrer W . 


Fehler 


Produkt 


Produkt 




X 


T 


E 


T* E 


X * T 




4 


3 


+ 1 


3 


12 




3 


4 


-1 


-4 


12 




5 


5 


0 


0 


25 




7 


7 


0 


0 


49 




5 


4 


+ 1 


4 


20 




2 


3 


-1 


-3 


6 


1 


26 


26 


0 


0 


124 


M 


4.33 


4.33 


0 


0 


- 


1X2 


128 


124 


4 


- 


- 


s 2 


2.55 


1.88 


0.67 


- 


- 


s 


1.59 


1.37 


0.81 


- 


- 


COV TE 




- 


- 


0 


- 


COV XT 


- 


- 


- 


- 


1.88 



Erlduterungen zu Kasten 4.3-5: 

Zu den Daten: 

- Die Daten sind fiktive Werte, welche die drei Anteile veranschaulichen, 

die gemaB den Axiomen der klassischen Testtheorie in einem MeBwert 
angenommen werden: beobachteter, wahrer und fehlerhafter Wert (X, T 
und E). Die Zerlegung solcher Werte Icifit sicli empirisch weder verifizieren 
nodi falsifizieren. 

Zu den Axiomen: 

- Zu Axiom 1: Jeder beobachtete Wert X zerlegt sich in die zwei Anteile T 
und E. Beispiel (Spalte 1-3): Fur Proband 1 zerlegt sich X = 4 in T = 3 
und E= + 1. 

Zu Axiom 2: Die Summe der Fehler ist gleich Null, darum der Mittelwert 
der beobachteten Werte gleich dem Mittelwert der wahren Werte. Beispiel 
(Spalte 3): M E = 0 => (Spalte 1 und 2): M x = 4.33 = M T 

- Zu Axiom 3: Wahre Werte und Fehler korrelieren nicht miteinander: Ihre 
Kovarianz (cov XE ) ist gleich Null. Um zu demonstrieren, wie sich dieser 
Sachverhalt in den Daten darstellt, berechnen wir die Kovarianz nach der 
Formel: 
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Y.TE-- 



etee 



COVje ■ 



N 



N 



An der Formel wird ablesbar: Damit die Kovarianz der wahren Werte und 
der F ehler (cov TE ) gleich Null wird, muB - im Zahler - sowohl die Pro- 
duktsumme der wahren Werte und der Fehler (ETE) als auch die Sumnu 
der Fehler (LE) den Wert Null annehmen. 



Veranschaulichung: 

1. Spalte 3 zeigt die Summe E (EE = 0), Spalte 4 die Produktsumme von 
T und E (ETE = 0). Es folgt: Die Kovarianz von wahrem Wert und 
Fehler ist gleich Null: covje = 0. 

2. Spalte 5 zeigt die Produktsumme von beobachteten und wahren Werten 
an (EXT = 124). Es folgt: Die Kovarianz von beobachteten und wahren 
Werten (Spalte 5: covxt) 1st identisch mit der Varianz der wahren Werte 
(Spalte 2: s 2 j ): covxt = E88 = s 2 z 

- Zu Axiom 4 und 5: Wahre Werte und Fehler verschiedener Test A und B 
korrelieren nicht systematisch zusammen. Zu diesen Axiomen bietet der 
Kasten 4.3-5 keine Veranschaulichung. 



Zu den Varianzen und Kovarianzen: 

Aus den Daten seien drei Varianzen und zwei Kovarianzen berechnet: 



- Varianz der beobachteten Werte: 

- Varianz der wahren Werte: 

- Varianz der Fehlerwerte: 

■ Kovarianz von T und E: 

Kovarianz von X und T: 



2 

S 2 T 
S E 
COV^ 

COVxt 



= 2.55 
= 1.88 
= 0.67 
= 0.0 
= 1.88 



Zur Ableitung der Reliabilitdt aus den Axiomen: 

An dem Zahlenbeispiel sei der Zusammenhang zwischen beobachteter Va- 
rianz (s 2 x ), wahrer Varianz (s~ T ) und Fehlervarianz (s E ) veranschaulicht: 

(a) in einer Gleichung, 

(b) in einem Diagramm. 

Zu (a): Gleichung: s“ x = s“ T + s“ E 

2.55 = 1.88 + 0.67 

Zu (b): Diagramm: In dem Diagramm zerlegen sich die drei Varianzen 

in unterschiedliche Anteile. 





2 

S x = 


2.55 




s 2 x = 1.88 


s 2 e = 0.67 



- Nun sei aus den Varianzen (der fiktiven Daten) die Reliabilitat geschatzt. 
Beide Berechnungen fuhren zu demselben Ergebnis. 

=> zuerst nach Formel (I) 
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s\ 1.88 
r,l ~ s 2 x ~ 2.55 



0.74 



=> dann nach Formel (II) 




0.67 

2.55 



0.74 



4.3.2.5 Modelle der Reliabilitatsberechnung 

Die Definition der Reliabilitat und ihre Formalisierung in den beiden Formeln 
I und II ermoglichen es, die MeBgenauigkeit von Tests auf unterschiedlichen 
Wegen zu priifen: 

In dem einen Falle werden eher Schatzungen der wahren Varianz, 
in dem anderen Falle eher Schatzungen der Fehlervarianz gesucht. 

Von hier ergeben sich unterschiedliche Schatzmodelle: 



- Retestreliabilitat (I), 

- Paralleltestreliabilitat (]]). 

- Halbierungsreliabilitat (HI), 

- Konsistenzschatzung (IV). 



Item-sampling-Modelle der Reliabilitatsschatzung: Die drei Modelle Par- 
alleltestreliabilitdt, Halbierungsreliabilitat und Konsistenzschatzung setzen 
ein anderes Schatzmodell voraus als die Retestreliabilitat. Man spricht von 
Item-sampling-Modellen‘. Es wird angenommen, clafi ein Universum von 
Items existiert, die das gleiche Merkmal umschreiben. Aus diesem Univer- 
sum werden parallele Itemstichproben gezogen. 

„Ungeachtet des geltenden testtheoretischen Modells beinhaltet der Begriff 
, Reliabilitat 1 nicht ein einheitliches Konzept, sondem ist vielmehr ein Ober- 
begriff fur eine Reihe von Konzepten, die jeweils nur hestimmte Aspekte der 
MeBgenauigkeit betreffen“ (Michel & Conrad, 1982, 38). - Die vier Modelle 
sind nicht Equivalent. Darum muB eine Mitteilung von Reliabilitat auch die 
Art ihrer Ermittlung angeben. 



Retestreliabilitat 

Retestreliabilitat besteht in der Genauigkeit, mit der bei denselben Probanden 
und mit demselben Test die Ergebnisse mehrerer Testurigen miteinander kor- 
relieren. Demnach setzt die Retestreliabilitat voraus: 

- Denselben Probanden wird derselbe Test unter vergleichbaren Bedingun- 
gen wenigstens zweimal vorgegeben. 
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Die Scores werden korreliert: die Hohe des Koeffizienten gilt als Schat- 
zung der MeBgenauigkeit. 

Es ergibt sich: 

s 2 t cov 12 

r„ = -r- = 

si S 1 5 2 

Es bedeuten: 

s T 2 : Varianz der wahren Werte, 
s x 2 : Varianz der beobachteten Werte, 

C0V| „ : Ko varianz der Werte von Testung I und Testung IE 
s s ’ : Standardabweichung der Werte von Testung I und II. 

Im Zahler steht zuerst die wahre Varianz (s x ‘), dann die Kovarianz der Werte 
von Testung I und Testung II (cov! 2 )- Diese Kovarianz wird demnach als 
Schatzung der wahren Varianz gedeutet. 

Im Nenner steht zuerst die beobachtete Varianz (s x ~), dann die Standard- 
abweichungen der Werte von Testung I und Testung II (S, x S 2 ), ihr Produkt 
gilt demnach als Schatzung der beobachteten Varianz. 

Einfliisse auf die Retestreliabilitat 

Auf die Wiederholung des Tests konnen Einfliisse einwirken, die in der zwei- 
maligen Testung nicht vorgesehen sind: vor allem Zeitabstand zwischen zwei 
Testungen, Gedachtniseffekte, generell jede Art von Lemen, aber auch Merk- 
malsfluktuation. 

Retestreliabilitat und Stabilitdt des Ziel-Merkmals 

Das Paradigma der Retestreliabilitat beruht auf einer fundamentalen Voraus- 
setzung: Das Zielmerkmal muB relativ stabil bleiben. Nur dann ist Wiederho- 
lung von Testungen ein Weg, Fehlervarianz und wahre Varianz zu schatzen. 

Dies sei veranschaulicht: Zwei Testungen mogen zwei gleiche Scores liefem, 
etwa zweimal den Wert 107. Der wahre Wert liege in Testung I bei 105, in 
Testung II dagegen bei 95; der Fehler betriige fur I demnach 2, fur II dagegen 
12. Der wahre Wert, als Indikator des Ziel-Merkmals, wurde von Test zu Retest 
also ,fluktuieren‘. Dann aber wurde der gleiche Wert von 107 gleiche Merk- 
malsauspragung vortauschen. - Demnach gilt umgekehrt: Nur wenn der glei- 
che Test-Score auf gleichen wahren Werten (auf einem stabilen Zielmerkmal) 
beruht, ist der SchluB auf MeBprazision berechtigt. 

Stabilitat im weiteren Sinne: Wegen des Zusammenhanges mit der Stabilitat 
des Merkmals wird Retestreliabilitat oft auch als Stabilitat bezeichnet, sie 
umschlieBt in diesem Falle: 
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die Genauigkeit des Instrumentes 

UND die Varianz aus Fehlem des Instrumentes 

UND die Varianz des Merkmals. 

Stabilitat im engeren Sinne: Zuweilen wird Stabilitat aber auch in einem 
engeren Sinne gefaBt, die Varianz des Merkmals wird ausgeschlossen. Dann 
bezeichnet Stabilitat: 

die Genauigkeit des Instrumentes 

UND die Varianz aus Fehlem des Instrumentes 

OHNE die Varianz des Merkmals. 

In diesem zweiten Falle liegt die Stabilitat hoher als die Retestreliabilitat, setzt 
aber voraus, daB die Fluktuation des Merkmals anderswoher bekannt ist und 
eliminiert werden kann. 

Unterschiedliche Itemmuster als Problem; der Retestreliabilitat 

Ein weiteres Problem kann sich daraus ergeben, daB bei Testung I und II zwar 
die Scores gleich hoch ausfallen, aber auf disjunkten Itemmengen bemhen, 
bei Testung I etwa auf den Items 1 3 5 7 9, bei Testung II auf den Items 2 
4 6 8 10. Kann hier der gleiche Test-Score als Indikator fur gleiche Verhal- 
tensdisposition dienen? 

Mit dem letzten Satz miindet die Frage der Reliabilitat in eine Frage nach der 
Validitat der Items. - Das Problem ergab sich schon bei Diskussion der Ob- 
jektivitat (S. 69). Es sei hier nur in Erinnemng gemfen. 



Paralleltestreliabilitat 

Paralleltestreliabilitat wird bestimmt als Korrelation zwischen Test A und sei- 
nem Paralleltest B bei denselben Probanden. Demnach wird derselben Stich- 
probe ein Test A vorgelegt (gegebenenfalls auch C, D, E). Die Ubereinstim- 
mung der Test-Scores, ermittelt als Korrelation, gilt als Indikator fur MeBge- 
nauigkeit. 

Als wichtigste Voraussetzung geht in diese Schatzung ein, daB Test A und Test 
B Equivalent sind. Dies schlieBt ein, daB die wichtigsten Kennwerte in beiden 
Tests gleich sind; dies betrifft zum mindesten 

- die Verteilungskennwerte (Mittelwerte, Varianzen, Kovarianzen bei mehr 

als zwei Tests), 

- die Reliabilitaten (je fiir sich) und 

- die Validitaten (je fiir sich). 

Wilks hat eine PriifgroBe entwickelt, genannt Lambda, die zu bestimmen er- 
laubt, wie weit die zentralen Kennwerte paralleler Testentwiirfe Equivalent 
sind (Wilks, 1946; Dieterich, 1973, 153; Lienert & Raatz, 1994, 30 1-306). 
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„Leider wird meist allzu sorglos verfahren, indent man annahernd gleich- 
artige Tests miteinander korreliert und das Resultat als Reliabilitdt inter- 
pretiert“ (Fischer, 1974, 39). 

Fur die Korrelation gilt: 

st cov a-b 

r„ = — = 

s; s a ■ s b 

Es bedeuten: 

s T 2 : Varianz der wahren Werte, 

s x 2 : Varianz der beobachteten Werte, 

cov ab : Kovarianz von Test A und Paralleltest B, 

s a; s b : Standardabweichung von Test A und Paralleltest B. 

Geht man wieder von der Definition der Reliabilitat als Quotient von wahrer 
und beobachteter Varianz aus, dann folgt: Analog zur Retestreliabilitat gilt die 
Kovarianz zwischen Test A und Test B (cov ab ) als Indikator der wahren Va- 
rianz, das Produkt der Standardabweichungen von Test A und von Test B als 
Indikator der beobachteten Varianz (s a . s b ). 

Probleme der Paralleltestreliabilitdt 

Wer Test A kennt (weil er ihn bearbeitet hat), kann die Losungsprinzipien auf 
Test B iibertragen. Demnach ist mit ahnlichen Lemeffekten zu rechnen wie 
bei einem Retest. 

Ebenso: Die beiden Itemstichproben sollen gleich, aber nicht identisch sein 
(Horst, 1971, 313, 352). Es soil dasselbe Merkmal gemessen werden, aber 
nicht mit denselben Items. 



(Ill) 

Halbierungsrehabilitat 

Die Halbierungsrehabilitat besteht, vereinfacht gesagt, in der Korrelation zwi- 
schen zwei Halften desselben Tests bei denselben Probanden. 

Ein Test wird nur einmal vorgelegt. Auf unterschiedlichen Wegen wird die 
Gesamtmenge der Items in zwei Halften aufgeteilt. Die Aufteilung ist so vor- 
zunehmen, dab die beiden Halften ahnlich strukturiert sind wie zwei Parallel- 
tests. 

Je Proband wird dann fur beide Halften ein Test-Score gebildet. Diese werden 
korreliert. Die Hohe der Ubereinstimmung gilt als Indikator der MeBgenau- 
igkeit - die durch Hochrechnung korrigiert werden kann. 

Als Moglichkeiten, beide Halften zu vergleichen, bieten sich an: 
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Die ,untere Hdlfte‘ des Itemsatzes wird verglichen mit der ,oberen Hdlfte‘, 
beispielsweise die Items 1-11 mit den Items 12-22. 

- Items, die ungerade Nummern haben, werden verglichen mit Items, die 

gerade Nummern haben, beispielsweise die Items 1 3 5 7 mit den Items 
246 8. 

- Der Gesamtsatz der Items wird nacli Zufall in zwei Halften eingeteilt, 

diese dann (wenn sie parallel ausfallen) verglichen. 

Berechnung und Hochrechnung der Halbierungsreliabilitat 

Bei der Halbierungsreliabilitat wird zunachst die Korrelation der beiden Half- 
ten ermittelt, in der Regel als Produkt-Moment-Korrelation. Dann wird der 
ermittelte Koeffizient ,korrigiert‘, d.h. hochgerechnet nach der sogenannten 
Spearman-Brown-Formula (prophecy formula). Zunachst sei ein Beispiel, 
dann die Hochrechnung, schlieBlich eine Begriindung der Hochrechnung ge- 
geben: 

- Hasten 4.3-6 bringt ein Zahlenbeispiel zur Berechnung der Halbierungs- 

reliabilitat. 

Unter dem Hasten 4.3-6 folgen die Hochrechnung und 

- ihre Begriindung. 

Hasten 4.3-6 veranschaulicht an einem Zahlenbeispiel die Berechnung der Hal- 
bierungsreliabilitat. 



Kasten 4.3-6: 
Halbierungsreliabilitat 



Die Halften werden gebildet nach ,geraden/ungeraden‘ Items: 
HI: Summe aus Item 1, 3 und 5 

H2: Summe aus Item 2, 4 und 6 








Items 












Pbn 


1 


2 


3 


4 


5 


6 


HI 


H2 


1 


2 


4 


3 


3 


4 


4 


9 


11 


2 


3 


4 


5 


2 


4 


4 


12 


10 


3 


5 


6 


4 


5 


6 


2 


15 


13 


4 


4 


3 


4 


2 


4 


3 


12 


8 


5 


2 


1 


1 


2 


4 


1 


1 


4 


6 


4 


5 


6 


5 


5 


2 


15 


12 



Die Korrelation zwischen Halite 1 (HI) und Halfte 2 (H2) in Kasten 4.3-6 
betragt: 

0,2 = 0.79 

Diese Korrelation wird ,hochgerechnet‘ nach der Spearman-Brown-Formu- 
la, die fiir den Fall der Halbierung lautet: 
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Es bedeuten: 

r ttc : Reliabilitat korrigiert nach Speannan-Brown, 
r, 2 : Korrelation der beiden Testhalften. 

Einsetzen und Berechnen ergibt: 



r t tc = 



2 • 0.79 
1 + 0.79 



= 0.88 



Der unkorrigierte Koeffizient, die Korrelation beider Hdlften, betrdgt r n = 
0. 79. Hochgerechnet ergibt sich eine korrigierte Halbierungsreliabilitdt von 
r llc = 0.88. Der erste Koeffizient liegt gerade unterhalb der fur Reliabilitat wtin- 
schenswerten Hohe (von r = 0.80), der zweite iiberschreitet sie erheblich. 



Zur Ableitung der Hochrechnungsformel: 
der Spearman-Brown-Formula 

Die Ableitung der ^Spearman-Brown-Formula geht aus von der Definition der 
Reliabilitat: r tt = s T /s x . Es laBt sich zeigen: Bei Verlangerung (oder Verkiir- 
zung) eines Tests andem sich Zahler (s' T ) und Nenner (s" x ) in unterschiedlicher 
Weise. 

Bei Verlangerung gilt: Die wahre Varianz (im Zahler) wachst rascher als die 
beobachtete Varianz (im Nenner). Das heiBt, der Anted der wahren Varianz 
an der beobachteten Varianz nimmt zu. Somit wachst (der Betrag des gesamten 
Quotienten, also) die Reliabilitat. 

Dies sei fiir den Fall der Verdoppelung eines Itemsatzes demonstriert. Zahler 
(s x ) und Nenner (s x ) werden getrennt betrachtet. 

ZAHLER 

Fiir den Zahler gilt bei Verdoppelung, daB die wahren Varianzen von Ted 1 
(bisheriger Itemsatz) und von Ted 2 (,neuer‘ Itemsatz) sich addieren wie folgt: 

(1) St( 2 ) 2 = Sji 2 + ST 2 2 + 2 ■ r Xi !2 • Sti • ST2 

Es bedeuten: 

sx( 2 ) 2 : Summe der wahren Varianzen von Ted 1 und Ted 2, 

Sti , st2 2 : Wahre Varianz von Teil 1 und von Teil 2, 

Sti, Sj 2 : Standardabweichung der wahren Werte von Teil 1 und von Teil 2, 
r T,i 2 : Korrelation zwischen den wahren Werten von Teil 1 und Teil 2. 

Da diese Varianzen fehlerfrei sind (per definitionem!), gilt: 

2 2 2 
sti = s T 2 = s T 

sti = S T2 = St 

r T,12 = 1 





82 



4. Kapitel: AbriB der klassischen Testtheorie 



Somit laBt sich (I) auch schreiben: 

(II) Sp(2) 2 = Sp 2 + Sp 2 + 2 • 1 • Sp • Sp 

= 2sp 2 + 2sp 2 

(ITT) s T(2) 2 = 4s T 2 



NENNER 



(IV) s x(2) 2 = s x i 2 + Sx 2 2 + 2 • r x l2 • s x i • s x2 

Es bedeuten: 

s X ( 2 ) 2 : Summe der beobachteten Varianzen von Teil 1 und Teil 2, 

s x i , s^ 2 : beobachtete Varianz von Teil 1 und von Teil 2, 
spi, Sp 2 : Standardabweichung der beobachteten Werte von Teil 1 und 
von Teil 2, 

r Xjl2 : Korrelation zwischen den beobachteten Werten von Teil 1 
und Teil 2. 

Da angenommen wird, daB die beiden Teile parallel sind, gilt: 

Sxi = Sx2 2 = S x 2 

Sxi = Sx 2 = S x 

Im JJnterschied z.um Ziihler gilt nicht, daB die Korrelation zwischen den 
beiden Halften den Wert 1 erreicht, und zwar wegen der Fehleranteile in den 
beobachteten Varianzen. Demnach gilt: 

r x,12 < 1 

Nun laBt sich (IV) auch schreiben: 

(V) s x(2) 2 = s x 2 + s x 2 + 2 • r ,2 ■ S x 

= 2 s x 2 + 2 • r 12 • s x 2 

(VI) s x(2 ) 2 = 2 s x 2 (1 + r Xj i 2 ) 



Einsetzen von (III) und (VI) in die Reliabilitdtsformel ergibt: 



(VII) r, 



4 s T 2 



ttcorr ' 



m 

( VI) 2 s x 2 (1 + r x> i 2 ) 



2 s/ 



(1+H2) 



St 

Der Quotient — 5- ist die Definition der Reliabilitat. 



Anstelle dieses Quotienten kann demnach auch r tt stehen. Im Beispiel der 
Halbierungsreliabilitat wird r tt ermittelt als Korrelation zwischen Teil 1 und 
Teil 2, also als r 12 . Somit laBt sich VII auch schreiben: 
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^ ttcorr 



2r tt 

1 + f\2 



2r n 

1 + r\2 



Das aber ist die Spearman-Brown-Formula fur den Fall der Verdoppelung ei- 
nes Itemsatzes. 



Verallgemeinerung der Korrekturformel 

F in Test laBt sich nicht nur halbieren, sondem ebenso dritteln oder vierteln 
usw. Fur diesen allgcmcincn Fall lautet die Spearman-Brown-Formula: 



r tt c = 



n-r tt 

1 +("- \)-r u 



Neu ist der Term ,n‘: 

Itemzahl ,nach“ Korrektur 
Itemzahl „vor“ Korrektur 

Die allgemeine Formel wird dazu verwandt, vorauszuschatzen, wie hoch die 
Reliabilitat ausfallen wird, wenn ein Test um eine bestimmte Anzahl von Items 
verlangert oder verkurzt wird, aber auch, um zu schatzen, wieviele Items man 
einem Test hinzufugen muB, um eine angezielte Reliabilitatshohe zu erreichen. 

Kasten 4.3-7 bringt zwei Beispiele fur die Anwendung der Spearman-Brown- 
Formula. 



Kasten 4.3-7: 

Anwendung der Spearman-Brown-Formula: Zwei Beispiele 



1. Um wieviel wachst die Reliabilitat, wenn ein Test mit r tt = 0.60 von 40 Items auf 47 
Items verlangert wird? 

Antwort: Die Reliabilitat wachst auf r tt = 0.64. 

Weg: In der Spearman-Brown-Formula ist zunachst ,n‘ zu ermitteln, dann einzusetzen. Die 
Zahl der Items nach der Korrektur (Zahler) betragt 47, die Zahl vor der Korrektur (Nenner) 
dagegen 40. 



Einsetzen: 



47/40 = 1.175 
1,175 0.60 



:0.64 



1 +(1,175- 1)- 0.60 

Die Reliabilitat wachst auf r„ = 0.64. 



Ein Test besteht aus 18 Items und hat eine Reliabilitat von r„ = 0.75. Wieviel Items 
mlissen hinzukommen, damit die Reliabilitat auf r ttc = 0.87 ansteigt? 



Antwort: Dem Test mlissen 22 Items hinzugefugt werden, so daB er 40 Items zahlt. 

Weg: Gegeben sind zwei Werte: r ttc und r tt . Unbekannt ist n. Die Formula ist aufzulosen 
nach n: 
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Halbierungsreliabilitat bei ungleichen Halften 

Die Spearman-Brown-Formula anzuwenden ist nur berechtigt, wenn verlan- 
gemde und verlangerte Teile aquivalent sind. Ist die Aquivalenz nicht gegeben, 
dann ist eine Korrektur nach Spearman-Brown unberechtigt, 

Um Ungleichheiten der Teile zu beriicksichtigen, wurde die Spearman-Brown- 
Formula erganzt, so von Flanagan, von Kuder-Richardson, von Cronbach, von 
Kristof (vgl. Dieterich, 1973, 155-158; Kranz, 1981, 202-206; Lienert & 
Raatz, 1994, 185-191; Lord & Novick, 1974, 82-98). Kasten 4.3-8 gibt zwei 
Beispiele solcher Alternativformeln. 

Kasten 4.3-8: 

Alternativformeln zur klassischen Spearman-Brown-Formula: Zwei Beispiele 



Nach 


Kristof 


r ttc 


2 N- 3 ^ s \ s i r \i 

N- 1 N- 1 + s\ + 2 s, s 2 r n 


Es bedeuten: 


N 


: Anzahl der Probanden, 


S i, S 2 


: Varianz von Teil 1 und Teil 2, 


Si S 2 
r 12 


: Standardabweichung von Teil 1 und Teil 2, 
: Korrelation zwischen Teil 1 und Teil 2. 


Nach Cronbach: a-Koeffizient 




n s]-Zsl em 




n - 1 s J 


Es bedeuten: 


n 


Anzahl der Items, 


s 2 , 


Varianz des Gesamttests, 


7. 

a item 


Varianz der Items. 
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EXKURS: 

Generalisierbarkeitstheorie als Erweiterung 
des klassischen Reliabilitatskonzeptes 

Vom Konzept der Spearman-Brown-Korrektur her laBt sich auf eine Erweite- 
rung des klassischen Reliabilitatskonzeptes verweisen. Das Gemeinsame liegt 
darin, daft erhobene Werte dazu dienen, ,neue‘ Werte vorauszuschatzen. 

Erweitert wurde das klassische Konzept der Reliabilitat durch die Generali- 
sierbarkeitstheorie von Cronbach, Rajaratnam und Gleser (1963; vgl. Cron- 
bach, Gleser, Nanda & Rajaratnam, 1972; Kamp, 1976). Eine knappe, sehr 
iibersichtliche Einfuhrung bietet beispielsweise NuBbaum bei Klauer (1987). 

Die Generalisierbarkeitstheorie fordert, daB, bevor ein Konstrukt gemessen 
wird, ein ,Universum zulassiger Beobachtungen 4 definiert werde. Festgelegt 
wird, unter welchen ,Facetten‘ und unter welchen ,Bedingungen‘ das Kon- 
stmkt beobachtet werden solle. Die Begriffe seien kurz erlautert. 

Das Design der Generalisierbarkeitstheorie ist varianzanalytisch angelegt. Was 
in der Varianzanalyse .Faktor' genannt wird, heiBt jetzt ,Facette‘. ,Bedingun- 
gen‘ bezeichnen die ,Stufen‘ oder ,Auspragungen‘ einer Facette. 

Ein Beispiel von NuBbaum (1987): Gegeben seien drei Facetten: Schuler (1), 
Items (J) und Beurteiler (K). 

Jede Facette wird genau beschrieben. Facette I bestehe aus gehorlosen Schii- 
lem. Facette J bestehe aus einem Itemsatz, der die Fahigkeit zur Aussprache 
bestimmter Fautverbindungen uberpruft. Facette K bestehe aus Sonderschul- 
lehrern an Gehorlosenschulen. 

Zur Schatzung der Varianzanteile je Facette und ihrer Interaktionen werden 
je Facette Zufallsstichproben von Bedingungen gezogen. 

In dem Beispiel werde eine Stichprobe von gehorlosen Schiilem (Facette 1), 
von Items (Facette J) und von Gehorlosenlehrem (Facette K) gezogen. 

Die gesammelten Daten dienen zur Erstellung zweier Studien: einer Genera- 
lisierbarkeits-Studie (G-Studie) und einer Decisions-Studie (D-Studie). 

Die G-Studie dient dazu, die gesuchten Varianzkomponenten an Stichproben 
zu ermitteln. (Sie hat einen analogen Zweck wie die Ermittlung von Kenn- 
werten einer Normstichprobe.) 

In einer D-Studie werden die Varianzkomponenten, die in der G-Studie er- 
mittelt wurden, fur neue Untersuchungen ,dienstbar‘ gemacht. (Sie ahnelt der 
Anwendung von Normen auf konkrete Untersuchungsfalle.) 

In dem Beispiel seien die Varianzkomponenten und die Interaktionen der drei 
Facetten in einer G-Studie ermittelt. Diese Werte konnen dann dazu dienen, 
fur eine D-Studie, fiir eine neue Studie iiber , Schuler, Items, Lchrcr'. Varianz- 
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komponenten vorauszuschatzen und dabei die Bedingungen der Facetten auch 
zu variieren. 

Man kann etwa schatzen, wie zuverlassig - wie reliabel - mit neuen Items 
(ahnlicher Art) neue Gruppen von Gehorlosen (ahnlicher Art) beurteilt werden 
konnen; wie reliabel neue Gruppen von Gehorlosenlehrem neue Schuler be- 
urteilen konnen. 

In diesem Sinne ermoglicht es die Generalisierbarkeitstheorie, schon ermittelte 
Genauigkeitswerte (,Reliabilitatswerte‘) zu verwenden zur Vorausschatzung 
der Genauigkeit von ,Anwendungen‘. In dieser Eigenart ist sie verwandt mit 
der Spearman-Brown-Korrektur, sie geht iiber deren Moglichkeiten aber weit 
hinaus. 

Nach diesem Hinweis auf eine Erweiterung der klassischen Testtheorie zuriick 
zur vierten Modalitat, die MeBgenauigkeit eines Tests zu schatzen: zur Ermitt- 
lung der Reliabilitdt als Konsistenz. 



(IV) 

Konsistenz 

Die Schatzung der Reliabilitat als Konsistenz bezeichnet das AusmaB, in dem 
von denselben Probanden alle Items in gleicher Weise beantwortet werden. 

Konsistenz laBt sich von zwei Ansatzen her konzipieren: 

Sie kann verstanden werden als Erweiterung der Halbierungsreliabilitat. 
Ein Test wird zerlegt in soviele Teile, wie er Items hat. Die Korrelation 
der , Teile 1 wird ermittelt (und hochgerechnet). 

Konsistenz laBt sich auch konzipieren von einem varianzanalytischen Pa- 
radigma her. 

Der varianzanalytische Ansatz sei im einzelnen erlautert: 

1. Probanden werden mit Items 1 ... k gemessen. Fur den beobachteten Wert 
gilt: X = T + E. 

Nach Axiom 1 wird angenommen, daB der wahre Wert (T) je Proband 
iiber alle Items hinweg (constant bleibt. Wenn nun der beobachtete Wert 
(X) eines Probanden variiert: wie laBt sich diese Variation dann interpre- 
tieren? Sie wird interpretiert als AusfluB von Fehlern (E). 

Die Variation des beobachteten Wertes je Proband laBt sich verstehen als 
Varianz innerhalb eines Faktors in einem varianzanalytischen Design 
(Sj,, ). Diese , Varianz innerhalb 1 dient als Schatzung des MeBfehlers. 
Demnach wird gleichgesetzt: s in 2 = s E 2 . 

2. Wenn zwischen den Probanden ebenfalls Varianz auftritt, dann werden 
darin zwei Komponenten gesehen: 

■ zum einen der Unterschied zwischen den wahren Werten der Proban- 
den, 





